
TinyLlama-1.1B量化推理解决方案

Mixtral模型的多平台兼容量化文件

通过低比特量化方法优化变换器模型性能

量化ONNX模型增强句子编码效率和性能

Meta-Llama-3.1的FP8量化方法实现高效部署

多语言开源大模型的精简量化版本

使用llama.cpp实现高效文本生成

采用多解码头技术的LLM加速框架

高性能GGUF格式多模态模型转换与部署指南

INT4量化版提升多语言对话效率

集成通用与编程能力的先进语言模型

Mixtral-8x7B多语言推理模型的GPTQ量化版本

Llama 3.1 70B指令模型INT4量化版 多语言对话优化

高性能4比特量化优化版本

多语言指令微调大型语言模型

Meta-Llama-3.1-8B-Instruct模型的INT4量化版本

Llama 3模型的GGUF格式优化版本

开源大语言模型支持32K上下文窗口的指令微调版本

提高训练和推理速度的先进文本到语音转换系统

思维缓冲技术提升大语言模型推理效能
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号