大语言模型
EfficientQAT是一种新型的量化技术,用于压缩大型语言模型。它包括两个连续的训练阶段:所有参数的块级训练(Block-AP)和量化参数的端到端训练(E2E-QP),可以在保持模型性能的同时显著减小模型大小。
DriveMLM是一个基于多模态大语言模型的自动驾驶框架,通过将语言决策与车辆控制命令对齐,实现了在真实模拟器中的闭环自动驾驶。本文详细介绍了DriveMLM的设计思路、核心功能及其在自动驾驶领域的重要意义。
Megatron-LM是NVIDIA开发的用于大规模训练Transformer语言模型的开源框架,支持模型并行和分布式训练,能够高效训练包含数十亿参数的大型语言模型。
探讨FuseAI项目在大型语言模型知识融合方面的创新研究,包括FuseLLM和FuseChat两个子项目的最新进展,以及它们在多项基准测试中取得的卓越成果。
探索Step-DPO如何通过阶段性偏好优化提升大型语言模型的长链推理能力,为AI领域带来新的突破。
SGLang是一个快速高效的大型语言模型和视觉语言模型服务框架。它通过联合设计后端运行时和前端语言,使模型交互更快速、更可控。本文将详细介绍SGLang的核心特性、安装方法、使用方式以及性能优势。
MInference是微软推出的一项创新技术,通过利用LLM注意力机制的动态稀疏特性,显著提升了长上下文大语言模型的推理速度,同时保持了模型的准确性。本文深入探讨了MInference的工作原理、性能表现以及对AI领域的潜在影响。
本文全面介绍了大语言模型知识编辑技术的发展历程、主要方法和应用前景。文章深入分析了知识编辑的重要性、关键技术和面临的挑战,并探讨了该领域的未来研究方向。
ScienceQA是一个新的多模态科学问答数据集,包含约21,000个问题,涵盖广泛的科学主题。它为研究人工智能系统的多跳推理能力和可解释性提供了新的基准。
本文全面介绍了大型语言模型(LLMs)的最新研究进展,涵盖了LLMs的基础技术、能力评估、应用领域等多个方面,为读者提供了LLMs领域的系统性认识。
ChatGLM3是清华大学KEG实验室与智谱AI联合开发的最新一代开源对话语言模型,在保留了前两代模型优秀特性的基础上,引入了更强大的基座模型、更全面的功能支持和更丰富的开源系列,为自然语言处理领域带来了新的可能性。
ChatGLM-6B是清华大学开源的一个强大的双语对话语言模型,具有62亿参数,支持中英双语问答,并且可以在消费 级显卡上部署。本文详细介绍了ChatGLM-6B的特点、使用方法以及最新进展。
AutoWebGLM是一个基于大型语言模型的网页导航代理,它通过创新的HTML简化算法、混合人工智能训练方法和强化学习技术,大幅提升了AI在网页浏览和任务执行方面的能力。这个项目不仅推动了AI网页导航的技术发展,还为研究人员提供了一个全新的双语评测基准。
探讨LLM4SE项目如何利用大型语言模型提升软件工程效率,分析其核心特性、应用场景及未来发展前景,为软件开发者提供AI赋能的新思路。
arxiv-translator是一个开源项目,旨在帮助研究人员和学者更轻松地阅读和整理arXiv上的学术论文。它提供了自动下载、翻译和格式化arXiv论文的功能,大大提高了学术研究的效率。
Llama3-Chinese是一个基于Meta-Llama-3-8B为基础,通过DORA和LORA+训练方法,在大规模高质量中英文数据集上训练而成的中文大语言模型。本文将深入探讨Llama3-Chinese的特点、应用场景及其在自然语言处理领域的重要意义。
LoraHub是一个创新的框架,通过动态组合多个LoRA模块,实现了高效的跨任务泛化能力。本文深入介绍了LoraHub的工作原理、主要特点及其在大语言模型微调领域的重要意义。
CritiqueLLM 是一个创新的评论生成模型,旨在为大型语言模型的输出提供更具信息量和洞察力的评估。本文将深入探讨 CritiqueLLM 的设计理念、实现方法和应用前景,揭示其如何推动自然语言处理领域的评估技术发展。
商业流程外包(BPO)是现代企业提升运营效率、降低成本的重要策略。本文全面介绍BPO的概念、类型、优势及挑战,助您深入了解这一智能管理方式。
本文深入探讨了大语言模型中的跳跃式思维能力,通过创意幽默生成任务展示了模型"跳出框框"思考的潜力,为人工智能的创造性思维研究开辟了新的方向。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号