TensorRT-LLM

<h4>优化大语言模型推理的TensorRT工具箱</h4>

最新动态

[2024/08/06] 🗫 接受多语言挑战 🗫 🤖 #TensorRT #LLM 提升了希伯来语、印尼语和越南语等低资源语言的性能 ⚡➡️ 链接

[2024/07/30] 推出🍊 @SliceXAI ELM Turbo 🤖 一次训练ELM ⚡ #TensorRT #LLM 优化 ☁️ 随处部署 ➡️ 链接
[2024/07/23] 👀 @AIatMeta Llama 3.1 405B 在16K NVIDIA H100上训练 - 推理使用 #TensorRT #LLM 优化 ⚡ 🦙 每节点400 tok/s 🦙 每用户37 tok/s 🦙 单节点推理 ➡️ 链接
[2024/07/09] 使用 #TensorRT #LLM 推理最大化 @meta #Llama3 多语言性能的清单： ✅ 多语言 ✅ NIM ✅ LoRA调优适配器 ➡️ 技术博客
[2024/07/02] 让 @MistralAI MoE 令牌飞起来 📈 🚀 #Mixtral 8x7B 与NVIDIA #TensorRT #LLM 在 #H100 上。 ➡️ 技术博客
[2024/06/24] 通过NVIDIA #TensorRT #LLM 增强，@upstage.ai 的 solar-10.7B-instruct 已准备好通过我们的API目录为您的开发者项目提供动力 🏎️。 ✨➡️ 链接
[2024/06/18] 别错过：🤩 Stable Diffusion 3 上周发布了 🎊 🏎️ 使用 #TensorRT INT8 量化加速您的 SD3➡️ 链接
[2024/06/18] 🧰使用TensorRT部署ComfyUI？这里是您的设置指南 ➡️ 链接
[2024/06/11] ✨#TensorRT 权重剥离引擎 ✨ 面向专业程序员的技术深度探讨 ✅+99%压缩 ✅1组权重 → **个GPU ✅0性能损失 ✅**种模型…LLM、CNN等➡️ 链接
[2024/06/04] ✨ #TensorRT 和 GeForce #RTX 释放 ComfyUI SD 超级英雄能力 🦸⚡ 🎥 演示：➡️ 链接 📗 DIY 笔记本：➡️ 链接

[2024/05/28] ✨#TensorRT ResNet-50 权重剥离 ✨ ✅+99%压缩 ✅1组权重 → **个GPU ✅0性能损失 ✅**种模型…LLM、CNN等 👀 📚 DIY ➡️ 链接
[2024/05/21] ✨@modal_labs 拥有 #TensorRT #LLM 上的无服务器 @AIatMeta Llama 3 代码 ✨👀 📚 精彩的 Modal 手册：无服务器 TensorRT-LLM（LLaMA 3 8B）| Modal 文档 ➡️ 链接
[2024/05/08] NVIDIA TensorRT 模型优化器 -- #TensorRT 生态系统的最新成员是一个后训练和训练中模型优化技术库 ✅量化 ✅稀疏性 ✅QAT ➡️ 博客
[2024/05/07] 🦙🦙🦙 每秒24,000个令牌 🛫Meta Llama 3 借助 #TensorRT #LLM 起飞 📚➡️ 链接
[2024/02/06] 🚀 使用TRT-LLM中最先进的量化技术加速推理
[2024/01/30] 新的XQA内核在相同延迟预算内提供2.4倍的Llama-70B吞吐量
[2023/12/04] 使用INT4 AWQ在单个H200 GPU上运行Falcon-180B，Llama-70B速度比A100快6.7倍
[2023/11/27] SageMaker LMI现在支持TensorRT-LLM - 与之前版本相比吞吐量提高60%
[2023/11/13] H200在Llama2-13B上实现近12,000 tok/sec
[2023/10/22] 🚀 使用TensorRT-LLM和LlamaIndex在Windows上实现RAG 🦙
[2023/10/19] 入门指南 - 使用NVIDIA TensorRT-LLM优化大型语言模型推理，现已公开可用
[2023/10/17] 使用Windows版TensorRT-LLM，大型语言模型在RTX上速度提升至4倍

TensorRT-LLM概述

TensorRT-LLM是一个易于使用的Python API，用于定义大型语言模型（LLM）并构建包含最先进优化的TensorRT引擎，以在NVIDIA GPU上高效执行推理。TensorRT-LLM包含用于创建执行这些TensorRT引擎的Python和C++运行时的组件。它还包括一个后端，用于与NVIDIA Triton推理服务器集成；这是一个用于服务LLM的生产质量系统。使用TensorRT-LLM构建的模型可以在广泛的配置上执行，从单个GPU到多个节点的多个GPU（使用张量并行和/或管道并行）。

TensorRT-LLM Python API架构类似于PyTorch API。它提供了一个functional模块，包含诸如einsum、softmax、matmul或view等函数。layers模块捆绑了有用的构建块来组装LLM；如Attention块、MLP或整个Transformer层。特定于模型的组件，如GPTAttention或BertAttention，可以在models模块中找到。