大语言模型
LLM4Decompile是一个开创性的项目,旨在利用大型语言模型(LLM)的强大能力来实现二进制代码的反编译。该项目提供了从1.3B到33B参数的一系列模型,为逆向工程和二进制分析领域带来了新的可能性。
INTERS是一个创新的指令微调数据集,旨在增强大型语言模型在信息检索任务中的能力。本文详细介绍了INTERS的设计理念、数据构建过程、任务类型以及实验结果,展示了其在提升LLM搜索性能方面的重要价值。
本文介绍了指令数据集在大语言模型训练中的重要性,梳理了目前主流的指令数据集类型及代表性数据集,并探讨了指令数据集的应用前景。
Inferflow是一个为大型语言模型(LLMs)设计的高效、灵活的推理引擎,它具有卓越的性能和丰富的配置选项,为AI开发者和研究人员提供了强大的工具。
GraphGPT是一个创新的框架,通过图指令微调范式将大型语言模型与图结构知识相结合。它能够增强语言模型对图结构信息的理解和处理能力,为图学习任务提供更准确和有上下文的响应。
UHGEval是一个专为评估中文大语言模型在专业内容生成中的幻觉问题而设计的大规模基准测试。它基于无约束文本生成和幻觉收集,结合了自动标注和人工审核。
Knowledge-QA-LLM是一个创新的开源项目,结合本地知识库和大语言模型,实现高效灵活的问答系统。它具有模块化设计、易于部署和支持多种文档格式等优势,为知识问答领域带来了新的解决方案。
本文深入探讨了ChatGLM系列模型的微调技术,包括Freeze、P-Tuning、LoRA和全参数训练等方法,并提供了详细的代码示例和显存占用分析,为开发者进行ChatGLM模型微调提供全面指导。
LongQLoRA是一种内存高效且有效的方法,可以使用较少的训练资源来扩展大型语言模型的上下文长度。本文将详细介绍LongQLoRA的原理、性能表现以及在实际应用中的优势。
推测性解码是一种新兴的大语言模型推理加速技术,通过并行运行两个模型来实现2-3倍的推理速度提升,同时保证输出质量不变。本文深入剖析了推测性解码的原理、实现方法和最新进展。
LLM-API项目为开发者和研究人员提供了一个versatile的API,让用户能够轻松地在不同的硬件配置上运行多种大型语言模型(LLMs)。无论是在Docker容器中还是本地机器上,该解决方案都能适应用户的偏好,简化了LLMs的使用过程,使其强大功能更易获得。
LLMs工具是一个基于HuggingFace开发的大语言模型训练和测试工具,支持多种模型的预训练、微调和部署,为AI研究人员和开发者提供了一个灵活强大的开发平台。
LLaMACpp.rb是一个为Ruby语言提供LLaMA模型绑定的强大库,它让开发者能够在Ruby项目中轻松使用和集成大型语言模型,为AI应用开发带来了新的可能性。
LLMFarm_core.swift是一个功能丰富的Swift库,用于在iOS和macOS上处理大型语言模型(LLM)。它支持多种推理模型、采样方法和Metal加速,为开发者提供了灵活高效的LLM应用开发工具。
本文深入介绍了Llama-2-JAX项目,该项目使用JAX框架实现了Llama 2语言模型,旨在提供高效的训练和推理能力,以及展示JAX在大型语言模型中的应用。
llama.ttf 是一个创新性的项目,将大型语言模型和推理引擎巧妙地嵌入到一个完全有效的 TrueType 字体文件中,展示了人工智能与传统数字技术的惊人融合。
本文全面总结了大型语言模型(LLM)领域的重要资源,包括最新研究论文、开源指令数据集、开源模型等,为研究人员和开发者提供了一站式的LLM学习资料库。
OpenLLMWiki是一个全面的开源大语言模型资源库,汇集了60多个开源ChatGPT替代项目和20多个基础语言模型的详细信息。它为研究人员和开发者提供了宝贵的参考,助力开源AI的发展。
PointLLM是一个多模态大型语言模型,能够理解彩色物体点云数据。它可以感知物体类型、几何结构和外观,而不受模糊深度、遮挡或视角依赖性的影响。该模型通过收集的660K简单和70K复杂的点云-文本指令对数据集进行训练,建立了生成式3D 物体分类和3D物体描述两个基准任务,并采用了三种不同的评估方法来严格评估模型的感知和泛化能力。
CodeGPT是一款强大的AI编码助手,为开发者提供全方位的支持。它集成了多种顶尖的大型语言模型,如GPT-4、Claude 3和Code Llama等,并支持离线使用,确保了代码的隐私安全。本文将深入探讨CodeGPT的核心功能、使用方法及其对软件开发的革新影响。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号