llama.onnx是一个开源项目,提供了将LLaMa和RWKV等大型语言模型转换为ONNX格式的工具,并支持模型量化和推理加速。本文介绍了该项目的主要功能、使用方法和相关资源。
本文汇总了awesome-language-agents项目的相关学习资源,包括论文、代码库、教程等,为读者提供了一份全面的语言智能体学习指南。
PaddleNLP是基于飞桨深度学习框架的NLP开发套件,支持多种NLP任务,包括文本分类、神经搜索、问答系统、信息抽取等。本文汇总了PaddleNLP的学习资源,帮助开发者快速上手。
RAG-Retrieval是一个提供全链路RAG检索微调和推理的开源框架,支持多种检索模型的微调和统一推理接口,助力构建高效的检索增强生成系统。
lmdeploy是一个用于压缩、部署和服务大型语言模型(LLM)的工具包。本文汇总了lmdeploy的 学习资源,帮助大家快速入门和使用这个高效的LLM部署框架。
Buffer of Thoughts (BoT)是一种新颖而多功能的思维增强推理方法,旨在提高大语言模型(LLMs)的准确性、效率和鲁棒性。通过引入元缓冲区和缓冲区管理器,BoT实现了跨任务的知识迁移和动态更新,在多项挑战性任务中取得了显著的性能提升。
本文通过对llama2.c代码的逐行解析,深入浅出地讲解了大语言模型推理的全过程,帮助读者从零开始理解Transformer模型的工作原理。
本文全面总结了大型语言模型(LLM)领域的重要资源,包括最新研究论文、开源指令数据集、开源模型等,为研究人员和开发者提供了一站式的LLM学习资料库。
MarkovJunior是一种新颖的概率编程语言,通过重写规则和约束传播来生成复杂的结构和行为。它可以用于创建迷宫、建筑、谜题等多种有趣的模拟。
AutoAWQ实现了AWQ算法进行4位量化,在推理过程中可以获得2倍的加速。该工具易于使用,支持多种主流大语言模型,是一个高效的模型压缩和加速解决方案。
本文对人工通用智能(AGI)的研究现状和发展前景进行了全面调查,从AGI内部、接口、系统、对齐等多个维度分析了AGI的关键技术和挑战,并探讨了AGI的发展路线图。文章旨在为读者提供对AGI领域的系统性认知,并引发对AGI未来发展的思考。
BLoRA是一种创新的推理技术,通过批处理多个LoRA适配器来最大化GPU利用率,大幅提升大语言模型的推理效率。本文详细介绍 了BLoRA的原理、使用方法及其优势,为希望提升AI模型性能的研究者和开发者提供了宝贵的参考。
本文全面综述了大语言模型在机器人和强化学习领域的最新应用进展,涵盖了推理、规划、操作等多个方面,并对未来发展方向进行了展望。
AQLM是一种新型的语言模型压缩技术,通过加法量化可以将模型大小压缩到原来的2比特,同时保持接近原始模型的性能。本文介绍了AQLM的原理、应用和最新进展。
本文深入探讨了在大语言模型(LLM)推理任务中,不同GPU的性能表现。通过对比NVIDIA的多款GPU和苹果芯片,为读者提供了选择适合LLM推理的GPU硬件的参考依据。
本文深入介绍了Awesome-Language-Model-on-Graphs项目,探讨了大语言模型在图结构数据上的应用和发展,包括相关研究、资源和最新进展。
GGML是一个用C语言编写的机器学习张量库,专注于在普通硬件上实现大型模型的高效推理。它被广泛应用于llama.cpp和whisper.cpp等项目中,使得在边缘设备上运行大语言模型成为可能。
EET (Easy and Efficient Transformer) 是一款专注于基于Transformer的模型推理的友好型PyTorch插件,旨在使大规模模型变得更加易用和高效。本文将深入介绍EET的特性、使用方法及性能表现。
本文全面介绍了ChatGLM模型的微调技术,包括全参数微调、LoRA、P-tuning v2等方法,并详细讨论了数据准备、训练过程和推理应用等关键环节,为读者提供了实用的ChatGLM模型定制化指南。
MAX平台是Modular公司推出的一套集成AI库、工具和技术的平台,旨在统一和加速AI部署工作流程。本文详细介绍了MAX平台的特点、优势及使用方法。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号