推理工具大全:AI推理平台、应用和开源项目集合

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

llama.onnx是一个开源项目,提供了将LLaMa和RWKV等大型语言模型转换为ONNX格式的工具,并支持模型量化和推理加速。本文介绍了该项目的主要功能、使用方法和相关资源。

LLaMaRWKVonnx模型量化推理Github开源项目
awesome-language-agents学习资料汇总 - 基于认知架构的语言智能体概览

awesome-language-agents学习资料汇总 - 基于认知架构的语言智能体概览

本文汇总了awesome-language-agents项目的相关学习资源,包括论文、代码库、教程等,为读者提供了一份全面的语言智能体学习指南。

CoALA认知架构语言代理推理学习Github开源项目
PaddleNLP入门学习资料汇总-易用且强大的NLP开发套件

PaddleNLP入门学习资料汇总-易用且强大的NLP开发套件

PaddleNLP是基于飞桨深度学习框架的NLP开发套件,支持多种NLP任务,包括文本分类、神经搜索、问答系统、信息抽取等。本文汇总了PaddleNLP的学习资源,帮助开发者快速上手。

PaddleNLP大模型训练推理飞桨Github开源项目
RAG-Retrieval入门学习资料-统一高效的RAG检索微调与推理框架

RAG-Retrieval入门学习资料-统一高效的RAG检索微调与推理框架

RAG-Retrieval是一个提供全链路RAG检索微调和推理的开源框架,支持多种检索模型的微调和统一推理接口,助力构建高效的检索增强生成系统。

RAG-Retrieval微调推理排序模型检索模型Github开源项目
lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

lmdeploy是一个用于压缩、部署和服务大型语言模型(LLM)的工具包。本文汇总了lmdeploy的学习资源,帮助大家快速入门和使用这个高效的LLM部署框架。

LMDeploy量化推理多模态模型部署Github开源项目
Buffer of Thoughts: 一种革命性的大语言模型推理增强框架

Buffer of Thoughts: 一种革命性的大语言模型推理增强框架

Buffer of Thoughts (BoT)是一种新颖而多功能的思维增强推理方法,旨在提高大语言模型(LLMs)的准确性、效率和鲁棒性。通过引入元缓冲区和缓冲区管理器,BoT实现了跨任务的知识迁移和动态更新,在多项挑战性任务中取得了显著的性能提升。

Buffer of Thoughts大语言模型推理性能提升思维模板Github开源项目
llama2.c的简明教程:从零开始理解大语言模型推理

llama2.c的简明教程:从零开始理解大语言模型推理

本文通过对llama2.c代码的逐行解析,深入浅出地讲解了大语言模型推理的全过程,帮助读者从零开始理解Transformer模型的工作原理。

Llama2.c推理Transformer架构前向传播权重矩阵Github开源项目
大型语言模型(LLM)资源全面总结:从研究论文到开源项目

大型语言模型(LLM)资源全面总结:从研究论文到开源项目

本文全面总结了大型语言模型(LLM)领域的重要资源,包括最新研究论文、开源指令数据集、开源模型等,为研究人员和开发者提供了一站式的LLM学习资料库。

大语言模型LLM微调推理评估RAGGithub开源项目
MarkovJunior:基于模式匹配和约束传播的概率编程语言

MarkovJunior:基于模式匹配和约束传播的概率编程语言

MarkovJunior是一种新颖的概率编程语言,通过重写规则和约束传播来生成复杂的结构和行为。它可以用于创建迷宫、建筑、谜题等多种有趣的模拟。

MarkovJunior概率编程重写规则推理算法Github开源项目
AutoAWQ: 基于AWQ算法的4位量化推理加速工具

AutoAWQ: 基于AWQ算法的4位量化推理加速工具

AutoAWQ实现了AWQ算法进行4位量化,在推理过程中可以获得2倍的加速。该工具易于使用,支持多种主流大语言模型,是一个高效的模型压缩和加速解决方案。

AutoAWQ量化推理GPU加速大语言模型Github开源项目
AGI调查报告:人工通用智能的现状与未来

AGI调查报告:人工通用智能的现状与未来

本文对人工通用智能(AGI)的研究现状和发展前景进行了全面调查,从AGI内部、接口、系统、对齐等多个维度分析了AGI的关键技术和挑战,并探讨了AGI的发展路线图。文章旨在为读者提供对AGI领域的系统性认知,并引发对AGI未来发展的思考。

AGI人工智能大语言模型多模态推理Github开源项目
BLoRA: 如何利用批处理LoRA技术提升大语言模型推理效率

BLoRA: 如何利用批处理LoRA技术提升大语言模型推理效率

BLoRA是一种创新的推理技术,通过批处理多个LoRA适配器来最大化GPU利用率,大幅提升大语言模型的推理效率。本文详细介绍了BLoRA的原理、使用方法及其优势,为希望提升AI模型性能的研究者和开发者提供了宝贵的参考。

LoRAGPU优化批处理语言模型推理Github开源项目
Awesome-LLM-Robotics: 大语言模型在机器人领域的应用进展

Awesome-LLM-Robotics: 大语言模型在机器人领域的应用进展

本文全面综述了大语言模型在机器人和强化学习领域的最新应用进展,涵盖了推理、规划、操作等多个方面,并对未来发展方向进行了展望。

大语言模型机器人规划推理人工智能Github开源项目
AQLM: 通过加法量化实现大型语言模型的极限压缩

AQLM: 通过加法量化实现大型语言模型的极限压缩

AQLM是一种新型的语言模型压缩技术,通过加法量化可以将模型大小压缩到原来的2比特,同时保持接近原始模型的性能。本文介绍了AQLM的原理、应用和最新进展。

AQLM大语言模型量化推理PyTorchGithub开源项目
GPU-Benchmarks-on-LLM-Inference: 探索大语言模型推理的GPU性能对比

GPU-Benchmarks-on-LLM-Inference: 探索大语言模型推理的GPU性能对比

本文深入探讨了在大语言模型(LLM)推理任务中,不同GPU的性能表现。通过对比NVIDIA的多款GPU和苹果芯片,为读者提供了选择适合LLM推理的GPU硬件的参考依据。

LLaMAGPU推理基准测试量化Github开源项目
图上的大语言模型:探索Awesome-Language-Model-on-Graphs项目

图上的大语言模型:探索Awesome-Language-Model-on-Graphs项目

本文深入介绍了Awesome-Language-Model-on-Graphs项目,探讨了大语言模型在图结构数据上的应用和发展,包括相关研究、资源和最新进展。

LLM推理基准测试知识图谱Github开源项目
GGML: 让大型语言模型在边缘设备上高效运行的张量库

GGML: 让大型语言模型在边缘设备上高效运行的张量库

GGML是一个用C语言编写的机器学习张量库,专注于在普通硬件上实现大型模型的高效推理。它被广泛应用于llama.cpp和whisper.cpp等项目中,使得在边缘设备上运行大语言模型成为可能。

ggml机器学习推理量化GPU加速Github开源项目
EET: 高效便捷的Transformer推理解决方案

EET: 高效便捷的Transformer推理解决方案

EET (Easy and Efficient Transformer) 是一款专注于基于Transformer的模型推理的友好型PyTorch插件,旨在使大规模模型变得更加易用和高效。本文将深入介绍EET的特性、使用方法及性能表现。

EETTransformer推理AI模型性能优化Github开源项目
ChatGLM微调技术:深入探讨大型语言模型的定制化训练

ChatGLM微调技术:深入探讨大型语言模型的定制化训练

本文全面介绍了ChatGLM模型的微调技术,包括全参数微调、LoRA、P-tuning v2等方法,并详细讨论了数据准备、训练过程和推理应用等关键环节,为读者提供了实用的ChatGLM模型定制化指南。

deep_trainingchatglm-6b训练推理微调Github开源项目
MAX平台:加速AI创新部署的统一工具链

MAX平台:加速AI创新部署的统一工具链

MAX平台是Modular公司推出的一套集成AI库、工具和技术的平台,旨在统一和加速AI部署工作流程。本文详细介绍了MAX平台的特点、优势及使用方法。

MAXAI工具链推理硬件可移植性Github开源项目