CapsFusion

<div align='center'> <h1><a href="https://arxiv.org/abs/2310.20550">CapsFusion：重新思考大规模图像-文本数据</a></h1>

于启莹1,2*，孙铨2*，张晓松2，崔宇峰2，张帆2 曹越3，王新龙2，刘静静1

1 清华大学AIR实验室，2 北京智源人工智能研究院，3 独立研究员 * 贡献相同

</div>

CapsFusion是一个简单且可扩展的框架，用于为图像-文本对生成高质量的描述。该框架利用大型语言模型（LLMs）有机地结合了真实图像-文本对和由描述模型生成的合成描述的优势，以解决使用合成描述训练的大型多模态模型（LMMs）中严重的可扩展性不足和世界知识损失问题。

🚀 新闻

2024年2月27日：CapsFusion被CVPR 2024接收！🎉🍻
2024年1月9日：发布CapsFusion 120M描述数据。
2023年11月29日：发布CapsFus-LLaMA模型和分布式推理代码。

数据

我们发布了CapsFusion-120M数据集，这是一个用于大规模多模态预训练的高质量资源。本次发布包括来自LAION-2B和LAION-COCO数据集的相应描述，以便进行比较分析和对图像-文本数据质量进行进一步深入研究。

该数据集可以从🤗Huggingface下载。每个数据条目有四个字段：

图像URL
LAION-2B描述（来自网络的原始alt文本）
LAION-COCO描述（由BLIP合成）
CapsFusion描述（我们的）

我们提供了一段代码片段来说明从给定的parquet文件中提取描述数据的过程，该代码打印前三个条目的url、laion_2b、laion_coco和capsfusion描述：

import pandas as pd
data = pd.read_parquet("capsfusion_1.parquet")
for idx, item in d.iterrows():
    print(f"{item['image_url']=}")
    print(f"{item['laion_2b']=}")
    print(f"{item['laion_coco']=}")
    print(f"{item['capsfusion']=}")
    print('\n')
    
    if idx == 2:
        break

请注意，由于我们无法将所有描述与其对应的图像URL配对，发布的描述总数为1.13亿。但我们预计，使用此数据集训练所达到的性能将与使用全部1.2亿描述训练的性能相当。

模型使用

我们在下面提供了使用CapsFus-LLaMA模型生成CapsFusion描述的说明，给定LAION-2B的原始描述和LAION-COCO的合成描述。

安装

pip install -r requirements.txt

数据格式

我们在./data/example_data.json中提供了10,000个样本。您可以以类似的结构组织自己的数据。每个样本具有以下结构，包含来自LAION-2B和LAION-COCO的描述：

{
  "laion_2b": ..., 
  "laion_coco": ..., 
}

我们还在./data/example_data.json中为每个样本附加了一个capsfusion_official项，这是由CapsFus-LLaMA生成的CapsFusion描述。

推理

torchrun --nnodes 1 --nproc_per_node 8 capsfusion_inference.py

使用8张A100-40G GPU，大约需要20分钟来优化10,000个样本。您可以根据可用的GPU更改nnodes和nproc_per_node的值。

CapsFus-LLaMA模型将自动从huggingface下载。您也可以从这个huggingface模型仓库手动下载模型，并将config.yaml中的model_name更改为您的本地模型目录路径。

结果文件将保存在./data中。

示例

以下是CapsFusion生成的示例：➀ 真实的基于网络的描述（来自LAION-2B，包含噪声），➁ 合成描述（来自LAION-COCO，由BLIP生成，在语法和语义上较为简单），以及它们对应的 ③ CapsFusion描述。

来自原始描述的知识（蓝色）和来自合成描述的信息（黄色）被有机地融合到完整的CapsFusion描述中。更多描述和详细分析可以在我们的论文中找到。

在CapsFusion描述上训练的模型展现了丰富的真实世界知识（如下图所示），同时在基准评估中优于真实和合成描述（详细信息可在论文中找到）。

计划

请继续关注即将发布的内容。感谢您的理解。

CapsFus-LLaMA模型及分布式推理代码
CapsFusion-10M子集：包含原始（来自LAION-2B）、合成（来自LAION-COCO）和CapsFusion描述的图像
CapsFusion-120M完整集：带有CapsFusion描述的图像URL

参考文献

CapsFusion: Rethinking Image-Text Pairs at Scale -- https://arxiv.org/abs/2310.20550

@article{yu2023capsfusion,
  title={CapsFusion: Rethinking Image-Text Data at Scale},
  author={Yu, Qiying and Sun, Quan and Zhang, Xiaosong and Cui, Yufeng and Zhang, Fan and Cao, Yue and Wang, Xinlong and Liu, Jingjing},
  journal={arXiv preprint arXiv:2310.20550},
  year={2023}
}