优化多模态大语言模型性能的局部性增强投影器
Honeybee项目通过局部性增强投影器提升多模态大语言模型性能。该项目在MMB、MME、SEED-I等基准测试中表现优异,提供预训练和微调模型检查点。Honeybee支持多种数据集,包含详细的数据准备、训练和评估指南,为多模态AI研究和开发提供开源工具。
这是Honeybee: 用于多模态大语言模型的局部增强投影器的官方PyTorch实现,作者Junbum Cha<sup>*</sup>、Wooyoung Kang<sup>*</sup>、Jonghwan Mun<sup>*</sup>、Byungseok Roh。[论文]
<p align="center"><img width="100%" src="https://yellow-cdn.veclightyear.com/ab5030c0/3cdbcd2b-b963-4039-81e7-40346a11467a.png"></p>2024.04
🔥🔥🔥 Honeybee被CVPR 2024接收为亮点论文。
2.0.1
pip install -r requirements.txt # 演示所需的额外依赖 pip install -r requirements_demo.txt
我们提供了预训练(PT)和微调(FT)阶段的检查点。
模型 | 检查点 | MMB | MME | SEED-I | LLaVA-w | MM-Vet | MMMU | POPE |
---|---|---|---|---|---|---|---|---|
Honeybee-C-7B-M144 | PT / FT | 70.1 | 1891.3 | 64.5 | 67.1 | 34.9 | 35.3 | 83.2 |
Honeybee-D-7B-M144 | PT / FT | 70.8 | 1835.5 | 63.8 | 66.3 | - | - | - |
Honeybee-C-13B-M256 | PT / FT | 73.2 | 1944.0 | 68.2 | 75.7 | 35.6 | 36.4 | 84.3 |
Honeybee-D-13B-M256 | PT / FT | 73.5 | 1950.0 | 66.6 | 72.9 | - | - | - |
模型 | 检查点 | MMB | MME | SEED-I | LLaVA-w | ScienceQA | MM-Vet | MMMU | POPE |
---|---|---|---|---|---|---|---|---|---|
Honeybee-C-7B-M256 | PT / FT | 71.0 | 1951.3 | 65.5 | 70.6 | 93.2 | 38.1 | 37.3 | 85.5 |
Honeybee-C-13B-M576 | PT / FT | 73.6 | 1976.5 | 68.6 | 77.5 | 94.4 | 42.2 | 36.2 | 85.6 |
下载以下所有数据后,将数据组织在./data
中。
然后,修改configs/data_configs/train_dataset
和configs/tasks
中的数据特定参数文件,如注释和图像根路径。
对于预训练阶段,我们使用BlipCapFilt和COYO数据集。鉴于它们的大小,我们建议按照这里提供的指南下载它们,并以webdataset格式存储。
请注意,我们使用的是原始COYO-700M数据集的过滤子集,特别是COYO100M子集。这个子集排除了CLIP相似度得分低于0.3的图像-文本对,这是使用CLIP ViT-B/32确定的。