项目简介
llava-llama-3-8b-v1_1-gguf是一个基于大型语言模型和计算机视觉技术的多模态AI模型。这个项目通过将Meta公司的Llama-3-8B-Instruct模型与CLIP视觉模型相结合,创造出了一个能够理解图像并进行自然语言交互的强大系统。
技术特点
该模型具有以下核心特点:
- 采用GGUF格式,提供更好的部署便利性
- 视觉编码器使用CLIP-ViT-Large-patch14-336
- 支持336x336分辨率的图像输入
- 提供fp16和int4两种量化版本,满足不同场景需求
- 采用LoRA技术对视觉模型进行微调
训练细节
模型的训练过程经过精心设计:
- 预训练阶段使用ShareGPT4V-PT数据集(124.6万条数据)
- 微调阶段使用InternVL-SFT数据集(126.8万条数据)
- 在训练过程中保持语言模型和视觉模型的参数冻结
- 使用MLP投影器连接视觉和语言模型
性能表现
模型在多个评测基准上展现出优秀表现:
- MMBench测试(英文):72.3分
- MMBench测试(中文):66.4分
- CCBench开发集:31.6分
- MMMU验证集:36.8分
- ScienceQA测试:72.9分
- TextVQA:59.0分
使用方法
该模型提供两种部署方式:
- 通过ollama部署:
- 支持fp16和int4两种精度版本
- 提供简单的命令行接口
- 适合快速集成和测试
- 通过llama.cpp部署:
- 需要编译llama.cpp和llava-cli
- 提供更灵活的部署选项
- 支持更多自定义配置
资源获取
用户可以从以下渠道获取相关资源:
- GitHub仓库:xtuner
- HuggingFace模型仓库:提供多种格式的模型文件
- 官方文档:包含详细的部署和使用说明
应用场景