大语言模型
DeepSeek-V2是一个强大、经济且高效的专家混合(MoE)语言模型,具有2360亿参数,每个token激活210亿参数,支持128K上下文长度。它采用创新的多头潜在注意力(MLA)和DeepSeekMoE架构,在保证模型性能的同时大幅降低了训练和推理成本。
Lawrence Technological University是一所位于密歇根州的私立理工大学,以培养科技创新人才著称。本文全面介绍了LTU的学术特色、校园生活、就业前景等方面,展现了这所大学在培养未来科技领袖方面的卓越成就。
Intel Neural Compressor是一个开源的Python库,旨在通过量化、剪枝等技术来压缩和优化深度学习模型,从而在Intel硬件上实现更快的推理速度。
QAnything是由网易有道开发的一款本地知识库问答系统,支持多种文件格式,可离线安装使用。本文详细介绍了QAnything的主要特性、架构设计、最新更新以及使用方法,展示了其在文档解析和智能问答方面的强大能力。
FastChat是一个开源平台,用于训练、部署和评估基于大型语言模型的聊天机器人。它提供了最先进模型的权重、训练代码和评估代码,以及具有Web UI和兼容OpenAI的RESTful API的分布式多模型服务系统。
JetMoE-8B是一个突破性的大语言模型,以不到100万美元的成本达到了Llama2-7B的性能水平。这项研究展示了大语言模型训练 可以比之前认为的更加经济高效,为AI研究和应用开辟了新的可能性。
LLMLingua 是一种创新的提示压缩技术,能够将大语言模型的输入提示压缩高达 20 倍,同时保持模型性能。它通过智能识别和删除非必要信息,显著提高了模型推理效率、降低了成本,并增强了长文本处理能力,为 AI 应用开发带来了革命性的突破。
本文深入介绍了 Awesome-Graph-LLM 项目,该项目旨在探索大语言模型与图结构的结合,收集了相关的研究论文和资源,涵盖了数据集、基准测试、PromptLearning、图模型、多模态模型等多个方面。
本文全面综述了大型语言模型(LLM)评估的最新进展,包括知识与能力评估、对齐性评估、安全性评估等方面,并介绍了相关评估方法、数据集和平台。文章旨在为LLM评估研究提供系统性的参考。
探索SEED-LLaMA如何通过创新的训练方法提升大型语言模型的性能和效率,为AI领域带来突破性进展。
GPT4Tools是一个基于自我指导的智能系统,能够自动决策、控制和利用不同的视觉基础模型,实现用户与图像的自然交互。它通过低秩适应(LoRA)优化开源大语言模型,具有强大的多模态能力和灵活的扩展性。
Meta公司推出的最新版本Llama 3语言模型,为个人、创作者、研究人员和各种规模的企业提供了强大的自然语言处理能力,开启了人工智能应用的新纪元。
本文深入探讨了大型语言模型(LLM)在网络安全领域的应用,介绍了一系列利用LLM进行网络安全研究的创新工具,涵盖逆向工程、网络分析、云安全等多个方面,展示了AI如何为网络安全带来新的可能性。
Llama是Meta公司开发的开源大规模语言模型系列,旨在为开发者、研究人员和企业提供强大的AI工具,推动生成式AI的创新和发展。
Chat-Haruhi-Suzumiya是一个开源项目,旨在通过大型语言模型模仿凉宫春日等动漫角色的语气、个性和剧情,实现与这些角色的对话交互。项目支持多种角色扮演,并提供了丰富的使用方式和演示。
PromptBench是微软开发的开源项目,旨在为大语言模型提供一个统一的评估框架。它集成了多种评估方法,包括标准评估、动态评估、对抗性攻击等,为研究人员提供了全面评估大语言模型性能的工具。