🪼 寒武纪-1：<br>多模态大语言模型的完全开放、以视觉为中心的探索

<p> <img src="https://yellow-cdn.veclightyear.com/835a84d5/7e529924-ae34-4411-9cdc-57eadc964741.png" alt="Cambrian" width="500" height="auto"> </p> <a href="https://arxiv.org/abs/2406.16860" target="_blank"> <img alt="arXiv" src="https://img.shields.io/badge/arXiv-Cambrian--1-red?logo=arxiv" height="25" /> </a> <a href="https://cambrian-mllm.github.io/" target="_blank"> <img alt="网站" src="https://yellow-cdn.veclightyear.com/835a84d5/eafa1ee9-aa65-43a4-8983-d9b8e023965a.svg" height="25" /> </a> <br> <a href="https://huggingface.co/collections/nyu-visionx/cambrian-1-models-666fa7116d5420e514b0f23c" target="_blank"> <img alt="HF 模型: Cambrian-1" src="https://img.shields.io/badge/%F0%9F%A4%97%20_Model-Cambrian--1-ffc107?color=ffc107&logoColor=white" height="25" /> </a> <a href="https://huggingface.co/collections/nyu-visionx/cambrian-data-6667ce801e179b4fbe774e11" target="_blank"> <img alt="HF 数据集: Cambrian 10M" src="https://img.shields.io/badge/%F0%9F%A4%97%20_Data-Cambrian--10M-ffc107?color=ffc107&logoColor=white" height="25" /> </a> <a href="https://huggingface.co/datasets/nyu-visionx/CV-Bench" target="_blank"> <img alt="HF 数据集: CV-Bench" src="https://img.shields.io/badge/%F0%9F%A4%97%20_Benchmark-CV--Bench-ffc107?color=ffc107&logoColor=white" height="25" /> </a> <div style="font-family: charter;"> <a href="https://tsb0601.github.io/petertongsb/" target="_blank">Shengbang Tong*</a>, <a href="https://ellisbrown.github.io/" target="_blank">Ellis Brown*</a>, <a href="https://penghao-wu.github.io/" target="_blank">Penghao Wu*</a>, <br> <a href="https://sites.google.com/view/sanghyunwoo/" target="_blank">Sanghyun Woo</a>, <a href="https://www.linkedin.com/in/manoj-middepogu/" target="_blank">Manoj Middepogu</a>, <a href="https://www.linkedin.com/in/sai-charitha-akula-32574887/" target="_blank">Sai Charitha Akula</a>, <a href="https://jihanyang.github.io/" target="_blank">Jihan Yang</a>, <br> <a href="https://github.com/vealocia" target="_blank">Shusheng Yang</a>, <a href="https://adithyaiyer1999.github.io/" target="_blank">Adithya Iyer</a>, <a href="https://xichenpan.com/" target="_blank">Xichen Pan</a>, <a href="https://www.linkedin.com/in/ziteng-wang-694b8b227/" target="_blank">Austin Wang</a>, <br> <a href="http://cs.nyu.edu/~fergus" target="_blank">Rob Fergus</a>, <a href="http://yann.lecun.com/" target="_blank">Yann LeCun</a>, <a href="https://www.sainingxie.com/" target="_blank">Saining Xie</a> </div> </div> <br>

趣闻：视觉能力在寒武纪时期的动物中首次出现！这就是我们项目名称"寒武纪"的灵感来源。

发布

[2024年7月3日] 🚂 我们发布了我们的定向数据引擎！详情请见子文件夹dataengine/。
[2024年7月2日] 🤗 CV-Bench现已在Huggingface上线！更多信息请访问：https://huggingface.co/datasets/nyu-visionx/CV-Bench
[2024年6月24日] 🔥 我们发布了寒武纪-1！我们还发布了三种规模的模型（8B、13B和34B）、训练数据和TPU训练脚本。我们将很快发布GPU训练脚本和评估代码。

安装

TPU训练

目前，我们支持使用TorchXLA在TPU上进行训练

克隆此仓库并进入代码库

git clone https://github.com/cambrian-mllm/cambrian
cd cambrian

安装包

conda create -n cambrian python=3.10 -y
conda activate cambrian
pip install --upgrade pip  # 启用PEP 660支持
pip install -e ".[tpu]"

为训练情况安装TPU特定包

pip install torch~=2.2.0 torch_xla[tpu]~=2.2.0 -f https://storage.googleapis.com/libtpu-releases/index.html

GPU推理

克隆此仓库并进入代码库

git clone https://github.com/cambrian-mllm/cambrian
cd cambrian

安装包

conda create -n cambrian python=3.10 -y
conda activate cambrian
pip install --upgrade pip  # 启用PEP 660支持
pip install ".[gpu]"

寒武纪权重

以下是我们的寒武纪检查点以及如何使用这些权重的说明。我们的模型在8B、13B和34B参数级别的各个维度上都表现出色。与GPT-4V、Gemini-Pro和Grok-1.4V等闭源专有模型相比，它们在多个基准测试中展示了具有竞争力的性能。

模型性能比较

模型	视觉令牌数	MMB	SQA-I	MathVistaM	ChartQA	MMVP
GPT-4V	未知	75.8	-	49.9	78.5	50.0
Gemini-1.0 Pro	未知	73.6	-	45.2	-	-
Gemini-1.5 Pro	未知	-	-	52.1	81.3	-
Grok-1.5	未知	-	-	52.8	76.1	-
MM-1-8B	144	72.3	72.6	35.9	-	-
MM-1-30B	144	75.1	81.0	39.4	-	-
基础LLM: Phi-3-3.8B
Cambrian-1-8B	576	74.6	79.2	48.4	66.8	40.0
基础LLM: LLaMA3-8B-Instruct
Mini-Gemini-HD-8B	2880	72.7	75.1	37.0	59.1	18.7
LLaVA-NeXT-8B	2880	72.1	72.8	36.3	69.5	38.7
Cambrian-1-8B	576	75.9	80.4	49.0	73.3	51.3
基础LLM: Vicuna1.5-13B
Mini-Gemini-HD-13B	2880	68.6	71.9	37.0	56.6	19.3
LLaVA-NeXT-13B	2880	70.0	73.5	35.1	62.2	36.0
Cambrian-1-13B	576	75.7	79.3	48.0	73.8	41.3
基础LLM: Hermes2-Yi-34B
Mini-Gemini-HD-34B	2880	80.6	77.7	43.4	67.6	37.3
LLaVA-NeXT-34B	2880	79.3	81.8	46.5	68.7	47.3
Cambrian-1-34B	576	81.4	85.6	53.2	75.6	52.7

完整表格请参考我们的Cambrian-1论文。

我们的模型在使用较少的固定视觉令牌数量的同时，提供了极具竞争力的性能。

使用Cambrian-1

要使用模型权重，请从Hugging Face下载：

我们在inference.py中提供了一个示例模型加载和生成脚本。

Cambrian-10M指令调优数据

在这项工作中，我们收集了大量的指令调优数据，即Cambrian-10M，用于我们和未来的研究来研究多模态大语言模型(MLLM)训练中的数据。在我们的初步研究中，我们将数据过滤为700万个高质量数据点，我们称之为Cambrian-7M。这两个数据集都可以在以下Hugging Face数据集中找到：Cambrian-10M。

数据收集

我们从各种来源收集了多样化的视觉指令调优数据，包括视觉问答、视觉对话和具身视觉交互。为确保高质量、可靠和大规模的知识数据，我们设计了一个互联网数据引擎。

此外，我们观察到视觉问答数据往往会生成非常简短的输出，与训练数据产生分布偏移。为解决这个问题，我们利用GPT-4v和GPT-4o创建了扩展回答和更具创造性的数据。

知识数据的数据引擎

为解决科学相关数据的不足，我们设计了一个互联网数据引擎来收集可靠的科学相关视觉问答数据。这个引擎可以应用于收集任何主题的数据。使用这个引擎，我们额外收集了16.1万个科学相关的视觉指令调优数据点，使该领域的总数据增加了400%！如果您想使用这部分数据，请使用这个jsonl。

GPT-4v蒸馏的视觉指令调优数据

我们使用GPT-4v创建了额外的7.7万个数据点。这些数据要么使用GPT-4v将原始的仅答案视觉问答重写为更长、更详细的回答，要么根据给定的图像生成视觉指令调优数据。如果您想使用这部分数据，请使用这个jsonl。

GPT-4o蒸馏的创意对话数据

我们使用GPT-4o创建了额外的6万个创意数据点。这些数据鼓励模型生成非常长的回答，通常包含高度创意的问题，如写诗、作曲等。如果您想使用这部分数据，请使用这个jsonl。

数据整理

我们通过以下方式对数据整理进行了初步研究：

设置阈值$t$来限制单一数据源的样本数量。
研究数据比例。

根据经验，我们发现将$t$设为35万可以获得最佳结果。此外，我们进行了数据比例实验，确定了以下最佳数据比例：

类别	数据比例
语言	21.00%
通用	34.52%
OCR	27.22%
计数	8.71%
数学	7.20%
代码	0.87%
科学	0.88%

与之前的LLaVA-665K模型相比，数据规模的扩大和改进的数据整理显著提高了模型性能，如下表所示：

模型	平均分	通用知识	OCR	图表	以视觉为中心
LLaVA-665K	40.4	64.7	45.2	20.8	31.0
Cambrian-10M	53.8	68.7	51.6	47.1	47.6
Cambrian-7M	54.8	69.6	52.6	47.3	49.5

添加系统提示以缓解"回答机器"现象

虽然使用Cambrian-7M进行训练能够在基准测试中取得有竞争力的结果，但我们观察到模型倾向于输出较短的回答，表现得像一个问答机器。这种我们称之为"答案机器"现象的行为可能会限制模型在更复杂交互中的实用性。

我们发现，添加一个系统提示，如"请用单个词或短语回答问题。"可以帮助缓解这个问题。这种方法鼓励模型只在语境适当时提供简洁的回答。更多详情请参阅我们的论文。

我们还整理了一个数据集，带系统提示的Cambrian-7M，其中包含系统提示以增强模型的创造力和聊天能力。

训练

以下是Cambrian-1最新的训练配置。

在Cambrian-1论文中，我们进行了广泛的研究以证明两阶段训练的必要性。Cambrian-1的训练包括两个阶段：

视觉连接器训练：我们使用混合的250万Cambrian对齐数据来训练空间视觉聚合器（SVA），将冻结的预训练视觉编码器连接到冻结的LLM。
指令微调：我们使用精选的Cambrian-7M指令微调数据来训练视觉连接器和LLM。

Cambrian-1在TPU-V4-512上训练，但也可以在从TPU-V4-64开始的TPU上训练。GPU训练代码将很快发布。对于较少GPU的训练，减少per_device_train_batch_size并相应增加gradient_accumulation_steps，确保全局批量大小保持不变：per_device_train_batch_size x gradient_accumulation_steps x num_gpus。

超参数

以下提供了预训练和微调中使用的超参数。

1. 视觉连接器训练

基础LLM	全局批量大小	学习率	SVA学习率	轮次	最大长度
LLaMA-3 8B	512	1e-3	1e-4	1	2048
Vicuna-1.5 13B	512	1e-3	1e-4	1	2048
Hermes Yi-34B	1024	1e-3	1e-4	1	2048

2. 指令微调

基础LLM	全局批量大小	学习率	轮次	最大长度
LLaMA-3 8B	512	4e-5	1	2048
Vicuna-1.5 13B	512	4e-5	1	2048
Hermes Yi-34B	1024	2e-5	1	2048

对于指令微调，我们进行了实验以确定模型训练的最佳学习率。根据我们的发现，我们建议使用以下公式根据设备的可用性调整学习率：

最佳lr = 基础lr * sqrt(bs / 基础bs)

下载LLM检查点

要获取基础LLM并训练8B、13B和34B模型：

LLaMA 8B模型：从Hugging Face下载模型权重，并在训练脚本中指定模型目录。
Vicuna-1.5-13B：运行提供的训练脚本时会自动处理Vicuna-1.5-13B模型。
Yi-34B：运行提供的训练脚本时也会自动处理Yi-34B模型。

训练空间视觉聚合器（SVA）

我们使用LLaVA、ShareGPT4V、Mini-Gemini和ALLaVA对齐数据的组合来预训练我们的视觉连接器（SVA）。在Cambrian-1中，我们进行了广泛的研究以证明使用额外对齐数据的必要性和好处。

首先，请访问我们的Hugging Face对齐数据页面了解更多详情。您可以从以下链接下载对齐数据：

我们在以下文件中提供了样本训练脚本：

使用自定义数据

如果您希望使用其他数据源或自定义数据进行训练，我们支持常用的LLaVA数据格式。为了处理非常大的文件，我们使用JSONL格式而不是JSON格式进行延迟数据加载，以优化内存使用。

指令微调

与训练SVA类似，请访问我们的Cambrian-10M数据了解更多关于指令微调数据的详情。

我们在以下文件中提供了样本训练脚本：

需要注意的选项：

--mm_projector_type：要使用我们的SVA模块，将此值设为sva。要使用LLaVA风格的2层MLP投影器，将此值设为mlp2x_gelu。
--vision_tower_aux_list：要使用的视觉模型列表（例如'["siglip/CLIP-ViT-SO400M-14-384", "openai/clip-vit-large-patch14-336", "facebook/dinov2-giant-res378", "clip-convnext-XXL-multi-stage"]'）。
--vision_tower_aux_token_len_list：每个视觉塔的视觉令牌数量列表；每个数字应该是一个平方数（例如'[576, 576, 576, 9216]'）。每个视觉塔的特征图将被插值以满足这一要求。
--image_token_len：将提供给LLM的最终视觉令牌数量；该数字应为平方数（例如576）。注意，如果mm_projector_type为mlp，则vision_tower_aux_token_len_list中的每个数字必须与image_token_len相同。

以下参数仅对SVA投影器有意义：

--num_query_group：SVA模块的G值。
--query_num_list：SVA中每组查询的查询数量列表（例如'[576]'）。列表长度应等于num_query_group。
--connector_depth：SVA模块的D值。
--vision_hidden_size：SVA模块的隐藏大小。
--connector_only：如果为true，SVA模块将仅出现在LLM之前，否则将被多次插入LLM内部。以下三个参数仅在此设置为False时有意义。
--num_of_vision_sampler_layers：插入LLM内部的SVA模块总数。
--start_of_vision_sampler_layers：开始插入SVA的LLM层索引。
--stride_of_vision_sampler_layers：LLM内部SVA模块插入的步长。

评估

我们将很快发布这部分代码。

演示

以下说明将指导您使用Cambrian启动本地Gradio演示。我们提供了一个简单的网络界面供您与模型交互。您也可以使用CLI进行推理。这个设置深受LLaVA的启发。

Gradio网页界面

请按照以下步骤启动本地Gradio演示。以下是本地服务代码的图表¹。

%%{init: {"theme": "base"}}%%
flowchart BT
    %% 声明节点
    style gws fill:#f9f,stroke:#333,stroke-width:2px
    style c fill:#bbf,stroke:#333,stroke-width:2px
    style mw8b fill:#aff,stroke:#333,stroke-width:2px
    style mw13b fill:#aff,stroke:#333,stroke-width:2px

    gws["Gradio (UI 服务器)"]
    c["控制器 (API 服务器):<br/>端口: 10000"]
    mw8b["模型工作器:<br/><b>Cambrian-1-8B</b><br/>端口: 40000"]
    mw13b["模型工作器:<br/><b>Cambrian-1-13B</b><br/>端口: 40001"]

    subgraph "演示架构"
        direction BT
        c <--> gws
        
        mw8b <--> c
        mw13b <--> c
    end

1. 启动控制器

python -m cambrian.serve.controller --host 0.0.0.0 --port 10000

2. 启动 Gradio 网页服务器

python -m cambrian.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

你刚刚启动了 Gradio 网页界面。现在，你可以使用屏幕上打印的 URL 打开网页界面。你可能会注意到模型列表中没有模型。不用担心，因为我们还没有启动任何模型工作器。当你启动模型工作器时，它会自动更新。

启动 SGLang 工作器

即将推出。

启动模型工作器

这是在 GPU 上执行推理的实际"工作器"。每个工作器负责 --model-path 中指定的单个模型。

python -m cambrian.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path nyu-visionx/cambrian-8b

等待进程完成模型加载，直到看到"Uvicorn running on ..."。现在，刷新你的 Gradio 网页界面，你会在模型列表中看到刚刚启动的模型。

你可以启动任意数量的工作器，并在同一个 Gradio 界面中比较不同的模型检查点。请保持 --controller 不变，并为每个工作器修改 --port 和 --worker 为不同的端口号。

python -m cambrian.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port <不同于 40000，比如 40001> --worker http://localhost:<相应更改，即 40001> --model-path <ckpt2>

如果你使用的是配备 M1 或 M2 芯片的 Apple 设备，可以使用 --device 标志指定 mps 设备：--device mps。

启动模型工作器（多个 GPU，当 GPU VRAM <= 24GB）

如果你的 GPU VRAM 小于 24GB（例如，RTX 3090、RTX 4090 等），你可以尝试使用多个 GPU 运行。我们最新的代码库会在你有多个 GPU 时自动尝试使用多个 GPU。你可以使用 CUDA_VISIBLE_DEVICES 指定要使用的 GPU。以下是使用前两个 GPU 运行的示例。

CUDA_VISIBLE_DEVICES=0,1 python -m cambrian.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path nyu-visionx/cambrian-8b

命令行推理

待定

引用

如果你发现 Cambrian 对你的研究和应用有用，请使用以下 BibTeX 进行引用：

@misc{tong2024cambrian1,
      title={Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs}, 
      author={Shengbang Tong and Ellis Brown and Penghao Wu and Sanghyun Woo and Manoj Middepogu and Sai Charitha Akula and Jihan Yang and Shusheng Yang and Adithya Iyer and Xichen Pan and Austin Wang and Rob Fergus and Yann LeCun and Saining Xie},
      year={2024},
      eprint={2406.16860},
}

致谢

LLaVA：我们从出色的 LLaVA 代码库开始
Vicuna：我们感谢 Vicuna 在 LLM 方面的初始代码库和开源 LLM 检查点
LLaMA：我们感谢 LLaMA 持续为开源社区做出贡献并提供 LLaMA-3 检查点
Yi：我们感谢 Yi 开源了非常强大的 34B 模型

许可证

<br> 使用和许可声明：本项目使用了某些数据集和检查点，这些数据集和检查点受其各自原始许可证的约束。用户必须遵守这些原始许可证的所有条款和条件，包括但不限于数据集的 OpenAI 使用条款，以及使用该数据集训练的基础语言模型检查点的特定许可证（例如 LLaMA-3 的 Llama 社区许可证和 Vicuna-1.5）。本项目不施加任何超出原始许可证规定的额外限制。此外，提醒用户确保他们对数据集和检查点的使用符合所有适用的法律和法规。