大语言模型
PubSec-Info-Assistant是一个由微软开发的开源项目,旨在展示基于Azure OpenAI服务和其他Azure服务构建的智能信息助手系统。它利用检索增强生成(RAG)模式,结合Azure AI Search和GPT模型,为用户提供自然语言交互式问答体验。
LLaVA-Med是一个针对生物医学领域的大型语言与视觉AI助手,旨在实现类似GPT-4的多模态能力。该项目由微软研究院开发,通过创新的课程学习方法,仅用一天时间就训练出了一个强大的生物医学AI助手。
探索UC Berkeley、ICSI和LBNL研究人员提出的LLM2LLM技术,这是一种创新的迭代数据增强策略,旨在通过合成数据来提升大型语言模型在低数据环境下的性能。
BitNet是一种创新的1比特Transformer架构,旨在为大型语言模型提供高效的计算和存储解决方案。通过将传统32位浮点数权重量化为1比特,BitNet显著减少了模型大小和计算复杂度,同时保持了出色的性能。本文深入探讨了BitNet的核心概念、技术细节及其在自然语言处理领域的潜在应用。
TRL是一个专门用于微调和对齐大型语言模型的全栈工具库,支持监督微调、奖励建模、PPO等多种方法,为开发者提供了高效、灵活的模型训练解决方案。
Yi-1.5是01.AI公司推出的升级版开源大语言模型,在代码、数学、推理和指令跟随等方面表现出色,为AI技术发展带来新的可能。
Multi-LLM-Agent项目通过多个小型语言模型的协作,实现了与大型封闭源语言模型相媲美的工具学习能力,为小型语言模型在复杂任务中的应用提供了新的可能。
GLM-4是智谱AI最新推出的开源大语言模型系列,包括GLM-4-9B基础模型、GLM-4-9B-Chat对话模型、GLM-4-9B-Chat-1M长文本模型以及GLM-4V-9B多模态模型,在多项基准测试中表现优异,支持26种语言,具备强大的对话、推理和多模态能力。
LLaVA-NeXT是一个开放源代码的大型多模态模型,在单图像、多图像和视频等多个基准测试上达到了最先进的性能,有时甚至可以与顶级商业模型相媲美。本文介绍了LLaVA-NeXT的最新进展、主要特点及其在多模态人工智能领域的重要意义。