大语言模型
AnyGPT是一个创新的多模态大语言模型,能够统一处理语音、文本、图像和音乐等多种模态,实现了任意模态之间的转换和交互。本文深入介绍了AnyGPT的核心技术、架构设计和应用场景,展示了其在多模态AI领域的重要突破。
LLaMA-VID通过创新的双令牌机制,实现了高效的长视频理解,为视觉语言模型处理长视频开辟了新的可能性。
VLOGGER是一个创新的AI系统,能够根据用户描述生成长达数分钟的视频博客(vlog)。通过结合大语言模型、视频生成模型等多种AI技术,VLOGGER实现了从文本到视频的端到端生成,为内容创作带来革命性突破。
PrivateGPT是一个创新的开源项目,旨在提供完全本地化和私密的ChatGPT式体验,让用户能够在保护隐私的同时利用大语言模型的强大功能。
本文对检索增强生成(RAG)技术进行了全面的综述,涵盖了RAG的基础、增强方法和应用领域,系统梳理了该领域的最新进展和未来发展方向。
VideoLLaMA2是一个先进的视频-语言模型,通过增强的时空建模和音频理解能力,在多项视频理解任务中取得了突破性进展。本文深入介绍了VideoLLaMA2的核心创新、主要特性以及在视频问答和描述等任务上的卓越表现。
DeepSeek-Math是一个基于DeepSeek-Coder-v1.5 7B模型初始化,并在数学相关数据上进行了5000亿个token的预训练的开源大语言模型,在数学推理能力方面取得了突破性进展。
ESFT(专家特化微调)是一种针对稀疏架构大语言模型的高效定制技术,通过只调整任务相关部分来提高模型性能和效率。本文介绍ESFT的原理、实现方法及其在多个NLP任务上的应用效果。
DeepSeek-MoE是一种创新的混合专家(MoE)语言模型架构,通过精细的专家分割和共享专家隔离策略,实现了专家的终极专门化,在保持性能的同时大幅降低了计算成本。
LLaMA2-Accessory是一个开源的大语言模型开发工具包,为预训练、微调和部署大语言模型以及多模态大语言模型提供全面支持。该项目在LLaMA-Adapter的基础上进行了扩展,增加了更多高级功能。
探索实时互动GPT数 字人的前沿技术,包括形象生成、语音交互、大语言模型和驱动等关键环节,展望AI虚拟人的发展前景。
本文深入探讨了Awesome-Tool-Learning项目,这是一个精心策划的工具学习论文和应用列表。我们将详细介绍该项目的背景、内容结构、主要贡献以及在人工智能领域的重要意义。
AIMO进展奖是一项由XTX Markets发起的1000万美元挑战基金,旨在推动能够进行数学推理的AI模型的开放式发展,最终目标是创造一个能在国际数学奥林匹克竞赛(IMO)中获得金牌的公开共享AI模型。本文详细介绍了AIMO进展奖的背景、目标、奖励机制以及最新进展。
本文全面综述了大型语言模型(LLM)幻觉问题的研究现状,包括幻觉的定义、评估、来源分析及缓解方法等,为后续研究提供了系统性参考。
本文深入探讨了GaLore (Gradient Low-Rank Projection) 技术,这是一种创新的内存高效低秩训练策略,可以显著提升大型语言模型的训练效率。文章详细介绍了GaLore的工作原理、优势特点以及在实际应用中的表现,为读者提供了全面的技术洞察。