LLaMA2-Accessory：一个开源的大语言模型开发工具包 🚀

<img src="https://yellow-cdn.veclightyear.com/835a84d5/b390932f-6bb9-4338-89e4-ad2144bf7237.png" width="90%"/> 📖 <a href="https://llama2-accessory.readthedocs.io" target="_blank">文档</a> 🤗 <a href="https://huggingface.co/Alpha-VLLM/SPHINX" target="_blank">HF仓库</a> • 👋 加入我们的<a href="http://imagebind-llm.opengvlab.com/qrcode/" target="_blank">微信群</a> • 🚀 <a href="http://imagebind-llm.opengvlab.com/" target="_blank">演示</a>

🚀LLaMA2-Accessory是一个开源工具包，用于大语言模型（LLMs）和多模态大语言模型的预训练、微调和部署。这个仓库主要继承自LLaMA-Adapter，并增加了更多先进功能。🧠

✨在这个工具包中，我们推出了SPHINX，一个多功能的多模态大语言模型（MLLM），它结合了多样化的训练任务、数据领域和视觉嵌入。

新闻

[2024-3-7] 我们发布了Large-DiT-T2I的演示和代码库 🎉。
[2024-2-17] 我们发布了在ImageNet上训练的3亿和7亿参数的Large-DiT。预训练检查点和完整训练代码库已发布 🎉。

[2024-1-27] SPHINX-MoE在CMMMU-test和CMMMU-val上分别取得了**29.57%和29.33%**的准确率。
[2024-1-24] SPHINX-MoE在MMVP上取得了新的最佳性能（49.33%），超过了GPT-4V！🔥🔥🔥
[2024-1-20] SPHINX-MoE在AesBench上取得了最佳性能！🔥🔥🔥
[2024-1-18] LLaMA-Adapter被ICLR 2024接收！🎉
[2024-1-12] 我们发布了基于紧凑型1.1B TinyLlama的SPHINX-Tiny，每个人都可以玩玩看！🔥🔥🔥
[2024-1-5] OpenCompass现在支持无缝评估所有LLaMA2-Accessory模型。🔥🔥🔗文档
[2024-1-2] 我们发布了SPHINX-MoE，一个基于Mixtral-8x7B-MoE的多模态大语言模型。🔥🔥🔥
[2023-12-12] SPHINX-V2在InfiMM-Eval中取得了出色的成绩，仅次于GPT4-V！🔥🔥🔥
[2023-12-11] 我们现在支持mixtral-8x7b的推理和微调！🔥🔥🔥
[2023-12-08] 我们发布了OneLLM，它使用统一框架将八种模态对齐到语言！🔥🔥🔥
[2023-11-17] 我们发布了SPHINX-V2，架构相同但功能增强！🔥🔥🔥
[2023.10.17] 我们发布了SPHINX的演示、代码和模型！🔥🔥
[2023.09.15] 我们现在支持Falcon 180B！🔥🔥
[2023.09.14] WeMix-LLaMA2-70B在OpenCompass基准测试中表现出色！🔥🔥
[2023.09.02] 我们现在支持InternLM🔥
[2023.08.28] 我们发布了使用OmniQuant量化的LLM，这是一种高效、准确且全面（甚至极低位）的量化算法。多模态版本即将推出
[2023.08.27] 我们现在支持CodeLLaMA和在evol-code-alpaca上的指令微调
[2023.08.27] 我们以网页书籍格式发布了文档 🔗点击这里查看
[2023.08.21] 我们发布了量化代码和评估结果
[2023.08.05] 我们发布了多模态微调代码和检查点
[2023.07.23] 初始发布 📌

功能特点

💡支持更多数据集和任务
- 🎯 使用 RefinedWeb 和 StarCoder 进行预训练。
- 📚 使用 Alpaca、ShareGPT、LIMA、WizardLM、Flacuna、Platypus、UltraChat 和 MOSS 进行单模态微调。
- 🌈 使用图像-文本对（LAION、COYO 等）、交错的图像-文本数据（MMC4 和 OBELISC）以及视觉指令数据（LLaVA、Shrika、Bard）进行多模态微调。
- 🔧 用于 API 控制的 LLM（GPT4Tools 和 Gorilla）。
⚡高效优化和部署
- 🚝 使用零初始化注意力和偏差范数调整进行参数高效微调。
- 💻 完全分片数据并行（FSDP）、Flash Attention 2 和 QLoRA。
🏋️‍♀️支持更多视觉编码器和 LLM
- 👁‍🗨 视觉编码器：CLIP、Q-Former、ImageBind 和 DINOv2。
- 🧩 LLM：LLaMA、LLaMA2、CodeLlama、InternLM、Falcon 和 Mixtral-8x7B。

环境配置

:gear: 有关环境安装，请参阅环境配置。

模型使用

:robot: 模型预训练、微调、推理以及其他相关主题的说明均可在文档中找到。

常见问题（FAQ）

:question: 遇到问题或有更多疑问？在这里找到常见问题的解答。我们随时为您提供帮助！

演示

指令微调的 LLaMA2：alpaca 和 gorilla。
聊天机器人 LLaMA2：dialog_sharegpt、dialog_lima 和 llama2-chat。
多模态 LLaMA2：in-context 和 alpacaLlava_llamaQformerv2_13b
SPHINX：演示

💡 现在，我们的模型 SPHINX 支持生成高质量的边界框，然后通过输入提示，利用 SAM 为图像中的所有对象呈现掩码。在这里试试吧！🚀

核心贡献者

Chris Liu、Ziyi Lin、Guian Fang、Jiaming Han、Yijiang Liu、Renrui Zhang、Longtian Qiu、Yichi Zhang、Siyuan Huang

项目负责人

Peng Gao、Wenqi Shao、Shanghang Zhang

招聘公告

🔥 我们正在招聘 上海人工智能实验室通用视觉组的实习生、博士后和全职研究人员，重点关注多模态和视觉基础模型。如果您感兴趣，请联系 gaopengcuhk@gmail.com。

引用

如果您发现我们的代码和论文有用，请引用：

@article{zhang2023llamaadapter,
  title = {LLaMA-Adapter: 使用零初始化注意力机制高效微调语言模型},
  author={Zhang, Renrui and Han, Jiaming and Liu, Chris and Gao, Peng and Zhou, Aojun and Hu, Xiangfei and Yan, Shilin and Lu, Pan and Li, Hongsheng and Qiao, Yu},
  journal={arXiv preprint arXiv:2303.16199},
  year={2023}
}

@article{gao2023llamaadapterv2,
  title = {LLaMA-Adapter V2: 参数高效的视觉指令模型},
  author={Gao, Peng and Han, Jiaming and Zhang, Renrui and Lin, Ziyi and Geng, Shijie and Zhou, Aojun and Zhang, Wei and Lu, Pan and He, Conghui and Yue, Xiangyu and Li, Hongsheng and Qiao, Yu},
  journal={arXiv preprint arXiv:2304.15010},
  year={2023}
}