LLaMA2-Accessory: 开源大语言模型开发工具包

LLaMA2-Accessory是一个强大的开源工具包,旨在简化大语言模型(LLM)和多模态大语言模型的开发过程。该项目由Alpha-VLLM团队开发,在GitHub上备受欢迎,目前已获得2.7k stars和170次fork。作为LLaMA-Adapter的升级版,LLaMA2-Accessory为研究人员和开发者提供了更多高级功能和灵活性。

主要特性

LLaMA2-Accessory的核心优势包括:

支持多种数据集和任务:
- 预训练支持RefinedWeb和StarCoder数据集
- 单模态微调支持Alpaca、ShareGPT、LIMA等数据集
- 多模态微调支持LAION、COYO等图文对数据集,以及MMC4、OBELISC等交错图文数据
- 支持LLaVA、Shrika、Bard等视觉指令数据
- 支持GPT4Tools和Gorilla等API控制任务
高效优化和部署:
- 参数高效微调,包括零初始化注意力和偏置范数调整
- 支持全分片数据并行(FSDP)、Flash Attention 2和QLoRA
支持多种视觉编码器和语言模型:
- 视觉编码器:CLIP、Q-Former、ImageBind和DINOv2
- 语言模型:LLaMA、LLaMA2、CodeLlama、InternLM、Falcon和Mixtral-8x7B

LLaMA2-Accessory架构图

安装和使用

要开始使用LLaMA2-Accessory,请按照以下步骤操作:

环境设置:详细说明请参考环境安装指南。
模型使用:

示例和演示

LLaMA2-Accessory提供了多个演示示例,展示了其在不同任务上的应用:

指令微调LLaMA2: alpaca和gorilla
LLaMA2聊天机器人: dialog_sharegpt、dialog_lima和llama2-chat
多模态LLaMA2: in-context和alpacaLlava_llamaQformerv2_13b

此外,项目还提供了SPHINX模型的演示,该模型能够根据输入提示生成高质量的边界框,并使用SAM为图像中的所有对象创建蒙版。

SPHINX演示

项目贡献者和领导者

LLaMA2-Accessory的核心贡献者包括Chris Liu、Ziyi Lin、Guian Fang、Jiaming Han等多位研究人员。项目由Peng Gao、Wenqi Shao和Shanghang Zhang领导。

值得注意的是,上海AI实验室的General Vision Group正在招聘实习生、博士后和全职研究人员,重点关注多模态和视觉基础模型。有兴趣的人可以联系gaopengcuhk@gmail.com。

引用和致谢

如果您在研究中使用了LLaMA2-Accessory,请引用以下论文:

@article{zhang2023llamaadapter,
  title = {LLaMA-Adapter: Efficient Finetuning of Language Models with Zero-init Attention},
  author={Zhang, Renrui and Han, Jiaming and Liu, Chris and Gao, Peng and Zhou, Aojun and Hu, Xiangfei and Yan, Shilin and Lu, Pan and Li, Hongsheng and Qiao, Yu},
  journal={arXiv preprint arXiv:2303.16199},
  year={2023}
}

@article{gao2023llamaadapterv2,
  title = {LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model},
  author={Gao, Peng and Han, Jiaming and Zhang, Renrui and Lin, Ziyi and Geng, Shijie and Zhou, Aojun and Zhang, Wei and Lu, Pan and He, Conghui and Yue, Xiangyu and Li, Hongsheng and Qiao, Yu},
  journal={arXiv preprint arXiv:2304.15010},
  year={2023}
}

该项目得到了多个开源项目的支持和启发,包括Facebook Research的llama、OpenGVLab的LLaMA-Adapter等。完整的致谢列表可在项目的GitHub页面上找到。