大语言模型
本文介绍了普林斯顿大学研究团队开发的ALCE项目,该项目旨在使大语言模型能够生成带有准确引用的文本。文章详细阐述了ALCE的背景、功能、数据集、评估方法以及基线模型的实现,为自然语言处理领域的研究者和开发者提供了宝贵的参考。
探索使用蒙特卡洛树搜索方法提升大语言模型数学解题能力的创新研究,实现接近GPT-4水平的数学奥林匹克解题能力。
InstructionWild项目旨在创建一个更大、更多样化的指令数据集,以促进大型语言模型的研究与发展。该项目收集了来自实际用户的高质量指令,涵盖了多种语言和任务类型,为提升AI模型的能力提供了宝贵的训练资源。
商业流程外包(BPO)作为一种重要的商业实践,正在revolutionizing全球商业运营模式。本文全面剖析BPO的定义、应用领域、优势及未来发展趋势,为企业决策者提供深入洞察。
RedPajama-Data-v2是一个大规模开放数据集, 包含30万亿个经过过滤和去重的令牌,涵盖5种语言,用于训练大型语言模型。该数据集还提供了40多个预计算的数据质量注释,可用于进一步筛选和权重计算。
Gemma是Google DeepMind基于Gemini技术推出的开源大语言模型家族,旨在为AI开发者提供轻量级、高性能的语言模型选择。本文全面介绍Gemma模型的特点、应用场景及使用方法。
CritiqueLLM是一个创新的语言模型评估工具,旨在为大型语言模型的生成结果提供详细、信息丰富的批评性评价。它通过生成具有洞察力的批评来评估模型输出的质量,为模型开发者和研究人员提供了宝贵的反馈。
PubSec-Info-Assistant是一个由Microsoft开发的开源项目,旨在展示Azure OpenAI服务与其他Azure服务的集成能力,为公共部门客户提供一个端到端的基线自定义检索增强生成(RAG)模式解决方案。
LLaVA-Med是一个为生物医学领域打造的大规模语言与视觉助手,通过创新的课程学习方法,仅用一天时间就实现了接近GPT-4级别的多模态对话能力,为生物医学研究与应用开辟了新的可能。
BitNet是一种创新的神经网络架构,通过使用1比特权重来显著减少大型语言模型的内存占用和能耗,同时保持竞争性能。本文详细介绍了BitNet的核心概念、实现方法及其在自然语言处理领域的应用前景。
CMLM-ZhongJing是一个专为传统中医领域打造的预训练大语言模型,它通过创新的训练方法和丰富的中医知识库,为中医诊断和治疗提供了全新的智能辅助工具。本文深入探讨了CMLM-ZhongJing的开发背景、技术特点和应用前景。
LoftQ是一种新的量化感知型LoRA微调方法,能够在低比特量化的同时保持模型性能,让开发者可以在有限的计算资源下高效地微调大语言模型。
本文全面介绍了远程感知多模态大语言模型(RS-MLLMs)的最新研究进展,包括模型架构、数据集、评测基准等方面,并探讨了该领域的未来发展方向。文章旨在为研究人员和从业者提供一个关于RS-MLLMs的综合性概述。
AQLM是一种新型的语言模型压缩技术,通过加法量化可以将模型大小压缩到原来的2比特,同时保持接近原始模型的性能。本文介绍了AQLM的原理、应用和最新进展。
PiSSA是一种新型参数高效的大语言模型微调方法,通过优化模型的主要奇异值和奇异向量来实现更快的收敛和更好的性能。本文详细介绍了PiSSA的原理、优势及其在多个基准测试中的出色表现。
calflops是一个强大的工具,可以计算各种PyTorch神经网络模型(包括CNN、RNN、Transformer等)的FLOPs、MACs和参数数量。本文详细介绍了calflops的使用方法和主要功能。