最佳量化AI工具和应用推荐 - 提升数据分析效率

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

llama.onnx是一个开源项目,提供了将LLaMa和RWKV等大型语言模型转换为ONNX格式的工具,并支持模型量化和推理加速。本文介绍了该项目的主要功能、使用方法和相关资源。

LLaMaRWKVonnx模型量化推理Github开源项目
LLM-FineTuning-Large-Language-Models学习资料汇总 - 大型语言模型微调技术与项目实践

LLM-FineTuning-Large-Language-Models学习资料汇总 - 大型语言模型微调技术与项目实践

本文汇总了LLM-FineTuning-Large-Language-Models项目的各种学习资源,包括代码示例、教程视频、笔记本等,帮助读者快速上手大型语言模型的微调技术。

LLMFine-tuning量化PEFTQLoRAGithub开源项目
docker-llama2-chat学习资料汇总 - 三步快速部署LLaMA2大模型

docker-llama2-chat学习资料汇总 - 三步快速部署LLaMA2大模型

本文汇总了docker-llama2-chat项目的相关学习资料,包括官方文档、教程博客、模型下载等,帮助读者快速上手使用Docker部署LLaMA2大模型。

Github开源项目DockerLLaMA2MetaAITransformers量化
OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

OmniQuant是一种针对大语言模型的全方位校准量化技术,本文汇总了OmniQuant项目的相关学习资源,帮助读者快速入门和了解这项技术。

OmniQuant量化大语言模型LLaMA高效QATGithub开源项目
SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

SqueezeLLM是一个用于压缩大语言模型的开源项目,通过密集-稀疏量化方法实现高效推理。本文汇总了SqueezeLLM的相关学习资料,帮助读者快速了解和使用这一技术。

SqueezeLLM量化大语言模型内存优化模型压缩Github开源项目
rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

本文汇总了rtp-llm项目的各类学习资源,包括官方文档、教程、示例代码等,帮助开发者快速上手这个高性能的LLM推理框架。

rtp-llm大语言模型CUDA量化多模态输入Github开源项目
Awesome-Efficient-LLM学习资料汇总 - 高效大语言模型压缩与加速技术

Awesome-Efficient-LLM学习资料汇总 - 高效大语言模型压缩与加速技术

本文汇总了Awesome-Efficient-LLM项目的相关学习资源,包括网络剪枝、知识蒸馏、量化等大语言模型压缩与加速技术的最新研究进展,为读者提供了一个全面的高效LLM技术学习指南。

Large Language Models模型剪枝知识蒸馏量化效率优化Github开源项目
lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

lmdeploy是一个用于压缩、部署和服务大型语言模型(LLM)的工具包。本文汇总了lmdeploy的学习资源,帮助大家快速入门和使用这个高效的LLM部署框架。

LMDeploy量化推理多模态模型部署Github开源项目
vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

vLLM是一个快速、易用的LLM推理和服务库,本文汇总了vLLM项目的关键信息和学习资源,帮助读者快速了解和上手这个强大的工具。

vLLMLLM服务量化PagedAttention高吞吐量Github开源项目
Text Generation Inference入门指南 - 高性能大语言模型推理服务

Text Generation Inference入门指南 - 高性能大语言模型推理服务

Text Generation Inference (TGI)是Hugging Face推出的大语言模型部署和服务工具包,本文介绍了TGI的主要特性、安装使用方法以及相关学习资源,帮助读者快速上手这一强大的LLM推理工具。

Text Generation InferenceHugging Face大语言模型分布式追踪量化Github开源项目
Inferflow:高效且可配置的大型语言模型推理引擎

Inferflow:高效且可配置的大型语言模型推理引擎

Inferflow是一个为大型语言模型(LLMs)设计的高效、灵活的推理引擎,它具有卓越的性能和丰富的配置选项,为AI开发者和研究人员提供了强大的工具。

Inferflow大语言模型推理引擎模型服务量化Github开源项目
BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

BEVFormer_tensorrt项目实现了BEVFormer等BEV 3D目标检测模型在TensorRT上的高效部署,支持FP32/FP16/INT8推理,并通过自定义TensorRT插件大幅提升了推理速度和内存效率。

BEV 3D DetectionTensorRT推理加速量化GPU内存优化Github开源项目
Optimum Quanto: 为 PyTorch 模型提供高效量化的强大工具

Optimum Quanto: 为 PyTorch 模型提供高效量化的强大工具

Optimum Quanto 是 Hugging Face 开发的 PyTorch 量化后端,为各种深度学习模型提供简单易用且功能强大的量化解决方案,有助于提高模型推理效率和部署灵活性。

Optimum Quanto量化PyTorch机器学习模型优化Github开源项目
LLMC:一个强大高效的大语言模型压缩工具包

LLMC:一个强大高效的大语言模型压缩工具包

LLMC是一个开源的大语言模型压缩工具包,集成了多种先进的压缩算法,旨在提高LLM的效率并减小模型大小,同时不牺牲性能。

LLM压缩量化剪枝LLMC性能优化Github开源项目
模型优化技术: 提升深度学习模型性能的关键方法

模型优化技术: 提升深度学习模型性能的关键方法

本文深入探讨了模型优化技术,介绍了量化、剪枝、知识蒸馏等主要优化方法,以及它们在提升深度学习模型性能和效率方面的应用。通过实例分析,帮助读者全面了解模型优化的重要性和具体实践。

Model Compression ToolkitMCT神经网络优化量化模型压缩Github开源项目
Q-Diffusion: 革命性的扩散模型量化技术

Q-Diffusion: 革命性的扩散模型量化技术

Q-Diffusion是一种创新的扩散模型量化方法,能够将全精度无条件扩散模型压缩至4位精度,同时保持comparable性能。该技术无需额外训练,为高效部署扩散模型开辟了新的可能。

Q-Diffusion量化扩散模型图像生成深度学习Github开源项目
AutoAWQ: 基于AWQ算法的4位量化推理加速工具

AutoAWQ: 基于AWQ算法的4位量化推理加速工具

AutoAWQ实现了AWQ算法进行4位量化,在推理过程中可以获得2倍的加速。该工具易于使用,支持多种主流大语言模型,是一个高效的模型压缩和加速解决方案。

AutoAWQ量化推理GPU加速大语言模型Github开源项目
Awesome Efficient AIGC: 提升人工智能生成内容效率的前沿技术综述

Awesome Efficient AIGC: 提升人工智能生成内容效率的前沿技术综述

本文全面梳理了提升AIGC(AI Generated Content)效率的最新研究进展,包括高效大语言模型、扩散模型等关键技术,为读者提供了人工智能生成内容领域效率优化的全景图。

AIGCLLM量化高效推理模型压缩Github开源项目
FasterTransformer4CodeFuse: 高性能LLM推理引擎

FasterTransformer4CodeFuse: 高性能LLM推理引擎

一个基于优化版FasterTransformer的高性能大语言模型推理框架,专为CodeFuse模型提供优化支持。

FasterTransformerCodeFuse模型推理性能优化量化Github开源项目
探索人工智能优化技术:加速AI模型性能的前沿方法

探索人工智能优化技术:加速AI模型性能的前沿方法

本文全面探讨了人工智能优化技术,介绍了多种提升AI模型性能和效率的前沿方法,包括量化、剪枝、知识蒸馏等,旨在帮助读者了解如何让AI系统运行得更快、更高效。

AI优化量化剪枝蒸馏深度学习编译器Github开源项目