大语言模型:精选AI工具、网站与开源项目

大语言模型

EfficientQAT: 高效的大型语言模型量化感知训练方法

EfficientQAT: 高效的大型语言模型量化感知训练方法

EfficientQAT是一种新型的量化技术,用于压缩大型语言模型。它包括两个连续的训练阶段:所有参数的块级训练(Block-AP)和量化参数的端到端训练(E2E-QP),可以在保持模型性能的同时显著减小模型大小。

EfficientQAT大语言模型量化训练模型压缩PyTorchGithub开源项目
DriveMLM: 基于大语言模型的自动驾驶新范式

DriveMLM: 基于大语言模型的自动驾驶新范式

DriveMLM是一个基于多模态大语言模型的自动驾驶框架,通过将语言决策与车辆控制命令对齐,实现了在真实模拟器中的闭环自动驾驶。本文详细介绍了DriveMLM的设计思路、核心功能及其在自动驾驶领域的重要意义。

DriveMLM自动驾驶大语言模型行为规划多模态Github开源项目
Megatron-LM: 大规模训练Transformer模型的开源框架

Megatron-LM: 大规模训练Transformer模型的开源框架

Megatron-LM是NVIDIA开发的用于大规模训练Transformer语言模型的开源框架,支持模型并行和分布式训练,能够高效训练包含数十亿参数的大型语言模型。

Megatron-LMMegatron-Core大语言模型GPU优化分布式训练Github开源项目
FuseAI: 大型语言模型的知识融合与突破性进展

FuseAI: 大型语言模型的知识融合与突破性进展

探讨FuseAI项目在大型语言模型知识融合方面的创新研究,包括FuseLLM和FuseChat两个子项目的最新进展,以及它们在多项基准测试中取得的卓越成果。

FuseLLM大语言模型知识融合FuseChat开源模型Github开源项目
Step-DPO: 革新长链推理的阶段性偏好优化方法

Step-DPO: 革新长链推理的阶段性偏好优化方法

探索Step-DPO如何通过阶段性偏好优化提升大型语言模型的长链推理能力,为AI领域带来新的突破。

Step-DPO长链推理大语言模型数学问题模型微调Github开源项目
SGLang: 高效的大型语言模型和视觉语言模型服务框架

SGLang: 高效的大型语言模型和视觉语言模型服务框架

SGLang是一个快速高效的大型语言模型和视觉语言模型服务框架。它通过联合设计后端运行时和前端语言,使模型交互更快速、更可控。本文将详细介绍SGLang的核心特性、安装方法、使用方式以及性能优势。

SGLang大语言模型服务框架后端运行时前端语言Github开源项目
MInference:加速长上下文LLM推理的革命性技术

MInference:加速长上下文LLM推理的革命性技术

MInference是微软推出的一项创新技术,通过利用LLM注意力机制的动态稀疏特性,显著提升了长上下文大语言模型的推理速度,同时保持了模型的准确性。本文深入探讨了MInference的工作原理、性能表现以及对AI领域的潜在影响。

MInference大语言模型动态稀疏注意力长文本处理性能优化Github开源项目
大语言模型知识编辑技术的发展与应用

大语言模型知识编辑技术的发展与应用

本文全面介绍了大语言模型知识编辑技术的发展历程、主要方法和应用前景。文章深入分析了知识编辑的重要性、关键技术和面临的挑战,并探讨了该领域的未来研究方向。

知识编辑大语言模型论文综述模型更新人工智能Github开源项目
ScienceQA:多模态科学问答数据集的突破性进展

ScienceQA:多模态科学问答数据集的突破性进展

ScienceQA是一个新的多模态科学问答数据集,包含约21,000个问题,涵盖广泛的科学主题。它为研究人工智能系统的多跳推理能力和可解释性提供了新的基准。

ScienceQA多模态推理科学问答大语言模型人工智能Github开源项目
大型语言模型的综述:从技术进展到应用前景

大型语言模型的综述:从技术进展到应用前景

本文全面介绍了大型语言模型(LLMs)的最新研究进展,涵盖了LLMs的基础技术、能力评估、应用领域等多个方面,为读者提供了LLMs领域的系统性认识。

大语言模型调查综述人工智能自然语言处理机器学习Github开源项目
ChatGLM3: 开源双语对话语言模型的新突破

ChatGLM3: 开源双语对话语言模型的新突破

ChatGLM3是清华大学KEG实验室与智谱AI联合开发的最新一代开源对话语言模型,在保留了前两代模型优秀特性的基础上,引入了更强大的基座模型、更全面的功能支持和更丰富的开源系列,为自然语言处理领域带来了新的可能性。

ChatGLM3大语言模型开源模型对话系统AIGithub开源项目
ChatGLM-6B:开源双语对话语言模型的新突破

ChatGLM-6B:开源双语对话语言模型的新突破

ChatGLM-6B是清华大学开源的一个强大的双语对话语言模型,具有62亿参数,支持中英双语问答,并且可以在消费级显卡上部署。本文详细介绍了ChatGLM-6B的特点、使用方法以及最新进展。

ChatGLM-6B大语言模型开源中英双语AI对话Github开源项目
AutoWebGLM: 革新网页导航的下一代自动化智能代理

AutoWebGLM: 革新网页导航的下一代自动化智能代理

AutoWebGLM是一个基于大型语言模型的网页导航代理,它通过创新的HTML简化算法、混合人工智能训练方法和强化学习技术,大幅提升了AI在网页浏览和任务执行方面的能力。这个项目不仅推动了AI网页导航的技术发展,还为研究人员提供了一个全新的双语评测基准。

AutoWebGLMWeb导航代理大语言模型HTML简化自动网页浏览Github开源项目
大型语言模型在软件工程中的应用与发展:LLM4SE项目解析

大型语言模型在软件工程中的应用与发展:LLM4SE项目解析

探讨LLM4SE项目如何利用大型语言模型提升软件工程效率,分析其核心特性、应用场景及未来发展前景,为软件开发者提供AI赋能的新思路。

大语言模型软件工程代码模型论文列表人工智能Github开源项目
arxiv-translator: 一个强大的论文翻译和整理工具

arxiv-translator: 一个强大的论文翻译和整理工具

arxiv-translator是一个开源项目,旨在帮助研究人员和学者更轻松地阅读和整理arXiv上的学术论文。它提供了自动下载、翻译和格式化arXiv论文的功能,大大提高了学术研究的效率。

论文翻译arXiv自然语言处理大语言模型人工智能Github开源项目
Llama3-Chinese: 突破语言障碍的中文大规模语言模型

Llama3-Chinese: 突破语言障碍的中文大规模语言模型

Llama3-Chinese是一个基于Meta-Llama-3-8B为基础,通过DORA和LORA+训练方法,在大规模高质量中英文数据集上训练而成的中文大语言模型。本文将深入探讨Llama3-Chinese的特点、应用场景及其在自然语言处理领域的重要意义。

Llama3-Chinese大语言模型自然语言处理开源项目人工智能Github
LoraHub: 动态LoRA组合实现高效跨任务泛化

LoraHub: 动态LoRA组合实现高效跨任务泛化

LoraHub是一个创新的框架,通过动态组合多个LoRA模块,实现了高效的跨任务泛化能力。本文深入介绍了LoraHub的工作原理、主要特点及其在大语言模型微调领域的重要意义。

LoraHub低秩适应跨任务泛化大语言模型动态组合Github开源项目
CritiqueLLM:一种用于评估大型语言模型生成的信息化评论生成模型

CritiqueLLM:一种用于评估大型语言模型生成的信息化评论生成模型

CritiqueLLM 是一个创新的评论生成模型,旨在为大型语言模型的输出提供更具信息量和洞察力的评估。本文将深入探讨 CritiqueLLM 的设计理念、实现方法和应用前景,揭示其如何推动自然语言处理领域的评估技术发展。

CritiqueLLM大语言模型评估自然语言处理人工智能Github开源项目
商业流程外包(BPO):提升企业效率的智能选择

商业流程外包(BPO):提升企业效率的智能选择

商业流程外包(BPO)是现代企业提升运营效率、降低成本的重要策略。本文全面介绍BPO的概念、类型、优势及挑战,助您深入了解这一智能管理方式。

BPO大语言模型提示词优化模型对齐无需训练Github开源项目
创意思维的飞跃:探索大语言模型中的跳跃式思维与幽默生成

创意思维的飞跃:探索大语言模型中的跳跃式思维与幽默生成

本文深入探讨了大语言模型中的跳跃式思维能力,通过创意幽默生成任务展示了模型"跳出框框"思考的潜力,为人工智能的创造性思维研究开辟了新的方向。

CLoT大语言模型创意幽默生成跳跃性思维多模态Github开源项目