大语言模型:精选AI工具、网站与开源项目

大语言模型

AnyGPT: 统一多模态大语言模型的突破性进展

AnyGPT: 统一多模态大语言模型的突破性进展

AnyGPT是一个创新的多模态大语言模型,能够统一处理语音、文本、图像和音乐等多种模态,实现了任意模态之间的转换和交互。本文深入介绍了AnyGPT的核心技术、架构设计和应用场景,展示了其在多模态AI领域的重要突破。

AnyGPT多模态语言模型离散序列建模模态转换大语言模型Github开源项目
LLaMA-VID:突破性的长视频理解模型

LLaMA-VID:突破性的长视频理解模型

LLaMA-VID通过创新的双令牌机制,实现了高效的长视频理解,为视觉语言模型处理长视频开辟了新的可能性。

LLaMA-VID大语言模型视觉语言模型多模态视频理解Github开源项目
VLOGGER: 人工智能驱动的下一代视频博客生成系统

VLOGGER: 人工智能驱动的下一代视频博客生成系统

VLOGGER是一个创新的AI系统,能够根据用户描述生成长达数分钟的视频博客(vlog)。通过结合大语言模型、视频生成模型等多种AI技术,VLOGGER实现了从文本到视频的端到端生成,为内容创作带来革命性突破。

VloggerAI系统视频生成大语言模型ShowMakerGithub开源项目
PrivateGPT: 安全、私密的本地化大语言模型应用

PrivateGPT: 安全、私密的本地化大语言模型应用

PrivateGPT是一个创新的开源项目,旨在提供完全本地化和私密的ChatGPT式体验,让用户能够在保护隐私的同时利用大语言模型的强大功能。

PrivateGPT隐私AI大语言模型APIGithub开源项目
RAG-Survey: 检索增强生成技术的全面综述

RAG-Survey: 检索增强生成技术的全面综述

本文对检索增强生成(RAG)技术进行了全面的综述,涵盖了RAG的基础、增强方法和应用领域,系统梳理了该领域的最新进展和未来发展方向。

RAG检索增强生成大语言模型人工智能自然语言处理Github开源项目
VideoLLaMA2: 推进视频大语言模型的时空建模与音频理解能力

VideoLLaMA2: 推进视频大语言模型的时空建模与音频理解能力

VideoLLaMA2是一个先进的视频-语言模型,通过增强的时空建模和音频理解能力,在多项视频理解任务中取得了突破性进展。本文深入介绍了VideoLLaMA2的核心创新、主要特性以及在视频问答和描述等任务上的卓越表现。

VideoLLaMA2视频理解大语言模型多模态AIGithub开源项目
DeepSeek-Math: 推动开放语言模型数学推理能力的极限

DeepSeek-Math: 推动开放语言模型数学推理能力的极限

DeepSeek-Math是一个基于DeepSeek-Coder-v1.5 7B模型初始化,并在数学相关数据上进行了5000亿个token的预训练的开源大语言模型,在数学推理能力方面取得了突破性进展。

DeepSeekMath大语言模型数学推理开源模型人工智能Github开源项目
ESFT: 专家特化微调技术提升大语言模型性能

ESFT: 专家特化微调技术提升大语言模型性能

ESFT(专家特化微调)是一种针对稀疏架构大语言模型的高效定制技术,通过只调整任务相关部分来提高模型性能和效率。本文介绍ESFT的原理、实现方法及其在多个NLP任务上的应用效果。

ESFT大语言模型模型微调专家混合效率提升Github开源项目
DeepSeek-MoE: 革新混合专家语言模型架构,实现专家终极专门化

DeepSeek-MoE: 革新混合专家语言模型架构,实现专家终极专门化

DeepSeek-MoE是一种创新的混合专家(MoE)语言模型架构,通过精细的专家分割和共享专家隔离策略,实现了专家的终极专门化,在保持性能的同时大幅降低了计算成本。

DeepSeekMoE大语言模型MoE架构模型评估开源模型Github开源项目
LLaMA2-Accessory: 开源大语言模型开发工具包

LLaMA2-Accessory: 开源大语言模型开发工具包

LLaMA2-Accessory是一个开源的大语言模型开发工具包,为预训练、微调和部署大语言模型以及多模态大语言模型提供全面支持。该项目在LLaMA-Adapter的基础上进行了扩展,增加了更多高级功能。

LLaMA2-Accessory大语言模型多模态预训练微调Github开源项目
实时互动GPT数字人:AI时代的虚拟伙伴

实时互动GPT数字人:AI时代的虚拟伙伴

探索实时互动GPT数字人的前沿技术,包括形象生成、语音交互、大语言模型和驱动等关键环节,展望AI虚拟人的发展前景。

数字人AI绘图语音识别大语言模型语音合成Github开源项目
Awesome-Tool-Learning: 工具学习的前沿进展与应用

Awesome-Tool-Learning: 工具学习的前沿进展与应用

本文深入探讨了Awesome-Tool-Learning项目,这是一个精心策划的工具学习论文和应用列表。我们将详细介绍该项目的背景、内容结构、主要贡献以及在人工智能领域的重要意义。

工具学习大语言模型人工智能自然语言处理工具增强Github开源项目
AIMO进展奖:推动AI数学推理的前沿挑战

AIMO进展奖:推动AI数学推理的前沿挑战

AIMO进展奖是一项由XTX Markets发起的1000万美元挑战基金,旨在推动能够进行数学推理的AI模型的开放式发展,最终目标是创造一个能在国际数学奥林匹克竞赛(IMO)中获得金牌的公开共享AI模型。本文详细介绍了AIMO进展奖的背景、目标、奖励机制以及最新进展。

NuminaMathAI数学奥林匹克数学问题解决大语言模型工具集成推理Github开源项目
大型语言模型幻觉问题研究综述

大型语言模型幻觉问题研究综述

本文全面综述了大型语言模型(LLM)幻觉问题的研究现状,包括幻觉的定义、评估、来源分析及缓解方法等,为后续研究提供了系统性参考。

幻觉大语言模型评估事实一致性自相矛盾Github开源项目
GaLore: 革命性的梯度低秩投影技术,实现高效大型语言模型训练

GaLore: 革命性的梯度低秩投影技术,实现高效大型语言模型训练

本文深入探讨了GaLore (Gradient Low-Rank Projection) 技术,这是一种创新的内存高效低秩训练策略,可以显著提升大型语言模型的训练效率。文章详细介绍了GaLore的工作原理、优势特点以及在实际应用中的表现,为读者提供了全面的技术洞察。

GaLore大语言模型梯度投影内存效率低秩训练Github开源项目
LLM-Codec: 革命性的大语言模型驱动音频�编解码器

LLM-Codec: 革命性的大语言模型驱动音频编解码器

LLM-Codec是一种创新的音频编解码器,它巧妙地将音频信息转换为大语言模型可理解的文本表示,实现了跨模态学习,为多模态大语言模型的发展开辟了新的可能性。

UniAudio 1.5LLM-Codec音频处理跨模态学习大语言模型Github开源项目
BayLing: 突破语言屏障的人工智能新星

BayLing: 突破语言屏障的人工智能新星

BayLing是一款基于LLaMA的创新型大语言模型,专注于英语和中文的语言对齐和指令遵循。它在多语言和通用任务方面展现出卓越性能,达到了ChatGPT 90%的水平,为跨语言交流和人工智能应用开辟了新的可能性。

BayLing大语言模型多语言指令跟随交互翻译Github开源项目
ExUI: 轻量级浏览器界面为ExLlamaV2提供本地推理能力

ExUI: 轻量级浏览器界面为ExLlamaV2提供本地推理能力

ExUI是一个简单、轻量级的基于浏览器的用户界面,专为运行ExLlamaV2本地推理而设计。它具有友好的响应式界面、持久会话、多种指令格式支持等特性,为AI爱好者和开发者提供了便捷的大语言模型使用体验。

ExUIExLlamaV2本地推理用户界面大语言模型Github开源项目
Speech Trident: 语音和音频大语言模型的前沿研究

Speech Trident: 语音和音频大语言模型的前沿研究

Speech Trident 是一个汇集了语音和音频领域最新大语言模型研究的开源项目,涵盖了表示学习、神经编解码和语言模型三个核心方向,为研究人员提供了全面的技术概览和资源索引。

Speech Trident语音模型大语言模型表示学习神经编解码器Github开源项目
SECap: 利用大型语言模型实现语音情感描述的突破性研究

SECap: 利用大型语言模型实现语音情感描述的突破性研究

本文深入探讨了SECap项目,这是一项利用大型语言模型进行语音情感描述的创新研究。文章详细介绍了SECap的模型架构、数据集、训练过程以及实际应用,展示了其在语音情感分析领域的重要贡献。

SECap语音情感描述大语言模型音频处理情感分析Github开源项目