GPU内存优化工具集合|提升AI效率与性能

PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

PatrickStar是腾讯开源的大规模预训练模型并行训练框架,本文汇总了PatrickStar的相关学习资源,帮助读者快速入门和深入了解这个强大的工具。

PatrickStar大模型并行训练异构训练GPU内存优化深度学习Github开源项目
FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

FlexGen是一个创新的高吞吐量生成引擎,可在有限GPU内存下运行大型语言模型。本文汇总了FlexGen的重要学习资源,帮助读者快速入门并充分利用这一强大工具。

FlexGen高吞吐量大语言模型GPU内存优化批处理Github开源项目
BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

BEVFormer_tensorrt项目实现了BEVFormer等BEV 3D目标检测模型在TensorRT上的高效部署,支持FP32/FP16/INT8推理,并通过自定义TensorRT插件大幅提升了推理速度和内存效率。

BEV 3D DetectionTensorRT推理加速量化GPU内存优化Github开源项目
S-LoRA:高效服务数千并发LoRA适配器的创新系统

S-LoRA:高效服务数千并发LoRA适配器的创新系统

本文深入探讨了S-LoRA系统,这是一项为大规模服务LoRA适配器而设计的突破性技术。文章详细介绍了S-LoRA的核心特性、工作原理及其在提高大语言模型服务效率方面的重要贡献。

S-LoRALoRA适配器大语言模型批处理推理GPU内存优化Github开源项目
XMem: 长时视频对象分割的新突破

XMem: 长时视频对象分割的新突破

XMem是一种基于Atkinson-Shiffrin记忆模型的长时视频对象分割算法,可以高效处理长视频的对象分割任务,在保持高性能的同时显著降低了GPU内存消耗。

XMem视频对象分割Atkinson-Shiffrin记忆模型GPU内存优化ECCVGithub开源项目
PatrickStar: 革命性的大规模语言模型并行训练框架

PatrickStar: 革命性的大规模语言模型并行训练框架

PatrickStar是腾讯开源的一款创新型深度学习框架,专为大规模预训练语言模型设计。它通过独特的内存管理和并行训练技术,使更多研究者和开发者能够训练和使用超大规模AI模型,推动了自然语言处理领域的民主化进程。

PatrickStar大模型并行训练异构训练GPU内存优化深度学习Github开源项目
FlexGen: 在单个GPU上高效运行大型语言模型

FlexGen: 在单个GPU上高效运行大型语言模型

FlexGen是一个创新的高吞吐量生成引擎,可以在有限的GPU资源下运行大型语言模型。它通过灵活的内存管理和优化技术,实现了在单个商用GPU上高效运行OPT-175B等超大模型,为吞吐量导向的场景提供了新的可能性。

FlexGen高吞吐量大语言模型GPU内存优化批处理Github开源项目