Open-LLaVA-NeXT

一个开源实现的LLaVA-NeXT系列,旨在促进大型多模态模型社区发展。

💡 亮点

🔥 所有训练数据和各阶段检查点都是开源的,方便研究使用。
🔥 能够复现**LLaVA-NeXT**的结果。
🔥 基于**LLaVA**代码库,仅做最小修改,易于上手。

🤖 模型库

更多详情见ModelZoo.md。

名称	ViT	LLM	权重	MME	SEED	SQA	MMB	MMB-CN	TextVQA	GQA
llava-next-vicuna-7b	CLIP-L-336	Vicuna-7B	SFT	1519	70.2	70.1	67.4	60.6	64.9	64.2
open-llava-next-vicuna-7b	CLIP-L-336	Vicuna-7B	PT, SFT	1540	71.1	70.7	68.5	60.7	67.2	64.3
llava-next-llama3-8b	CLIP-L-336	LLaMA3-8B	SFT	1591	72.7	73.4	72.6	69.0	65.0	65.5
open-llava-next-llama3-8b	CLIP-L-336	LLaMA3-8B	PT, SFT	1552	74.4	77.3	74.4	70.4	69.8	65.9

👨‍💻 待办事项

复现 LLaVA-Next-LLaMA3-8B
复现 LLaVA-Next-Nous-Yi-34B
支持SigLIP和更多不同规模的LLM (需要社区的帮助!)
集成VLMEvalKit以便评估

🔧 安装

克隆此仓库并进入Open-LLaVA-NeXT文件夹

git clone https://github.com/xiaoachen98/Open-LLaVA-NeXT.git
cd Open-LLaVA-NeXT

安装包

conda create -n llava-next python=3.10 -y
conda activate llava-next
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .

安装训练所需的额外包

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

数据准备

你应该按照**Data.md**的指示来管理训练数据集。

训练概述

Open-LLaVA-NeXT的训练包括两个阶段:(1)特征对齐阶段:使用LAION-CC-SBU数据集的558K子集来连接冻结预训练的视觉编码器和冻结的LLM;(2)视觉指令微调阶段:使用100万完全开源的数据对整个模型进行微调。详细的数据统计在视觉指令微调部分提供。我们以Vicuna-v1.5-7B变体为例来介绍训练和评估细节。

Open-LLaVA-NeXT系列在具有80GB内存的A100 GPU上进行训练。要在更少的GPU上训练,你可以减少per_device_train_batch_size并相应增加gradient_accumulation_steps。使用DeepSpeed ZeRO-3可以进一步降低内存需求。始终保持全局批量大小不变:per_device_train_batch_size x gradient_accumulation_steps x num_gpus。

超参数

我们在微调中使用了与LLaVA相同的一组超参数。下面提供了预训练和微调中使用的超参数。

预训练 | 超参数 | 全局批量大小 | 投影器学习率 | 训练轮数 | 最大长度 | 权重衰减 | | --- | ---: | ---: | ---: | ---: | ---: | | Open-LLaVA-NeXT-7B | 256 | 1e-3 | 1 | 4096 | 0 |
微调

超参数	全局批量大小	LLM学习率	投影器学习率	视觉塔学习率	训练轮数	最大长度	权重衰减
Open-LLaVA-NeXT-7B	128	2e-5	2e-5	2e-6	1	4096	0

预训练

请在此处下载带有BLIP标题的LAION-CC-SBU数据集的558K子集。

Open-LLaVA-NeXT-7B的预训练在16块A100（80G）上大约需要5小时。

使用DeepSpeed ZeRO-2的训练脚本：pretrain.sh。

--mm_projector_type mlp2x_gelu：两层MLP视觉语言连接器。
--vision_tower openai/clip-vit-large-patch14-336：CLIP ViT-L/14 336像素。

视觉指令微调

准备数据您应该按照Data中的说明准备数据。
准备MLP投影器您可以在Model Zoo中下载我们预训练的投影器，或在预训练后指定您自己的MLP投影器。
开始训练 Open-LLaVA-NeXT-7B的视觉指令微调在16块A100（80G）上大约需要20小时。

使用DeepSpeed ZeRO-2的训练脚本：finetune.sh。

需要注意的新选项：

--unfreeze_mm_vision_tower True：微调视觉塔。
--mm_vision_tower_lr 2e-6：视觉塔的学习率。
--image_aspect_ratio anyres：处理可变分辨率的图像。
--mm_patch_merge_type spatial_unpad：这会对填充并调整大小的图像张量进行去填充，并通过在图像标记中插入可学习的换行向量，使模型能够感知二维空间信息。这用于处理图像标记。