SEED-Bench: 多模态大语言模型基准测试

SEED-Bench-H 是对之前 SEED-Bench 系列（SEED-Bench、SEED-Bench-2、SEED-Bench-2-Plus）的全面整合，并增加了额外的评估维度。它包含 28K 个具有精确人工标注的多项选择题，涵盖 34 个维度，包括对文本和图像生成的评估。

SEED-Bench-2-Plus 包含 2.3K 个具有精确人工标注的多项选择题，涵盖三大类别：图表、地图和网络，每个类别都涵盖了现实世界中广泛的富文本场景。

SEED-Bench-2 包含 24K 个具有准确人工标注的多项选择题，涵盖 27 个维度，包括对文本和图像生成的评估。

SEED-Bench-1 包含 19K 个具有准确人工标注的多项选择题，涵盖 12 个评估维度，包括空间和时间理解。

新闻

[2024.7.11] SEED-Bench-H、SEED-Bench-2-Plus、SEED-Bench-2 和 SEED-Bench-1 数据在 ModelScope 上发布，感谢 ModelScope 社区。

[2024.6.18] SEED-Bench-2 现可在 VLMEvalKit 上评估，感谢 kennymckormick。

[2024.5.30] 我们发布了 SEED-Bench-H，这是对之前 SEED-Bench 系列（SEED-Bench、SEED-Bench-2、SEED-Bench-2-Plus）的全面整合，并增加了额外的评估维度。额外的评估维度包括图像到 Latex、视觉故事理解、少样本分割、少样本关键点、少样本深度和少样本目标检测。详情请参阅 SEED-Bench-H。相应的数据集发布在 SEED-Bench-H。

[2024.5.25] SEED-Bench-2-Plus 现可在 VLMEvalKit 上评估，感谢 kennymckormick。

[2024.4.26] 我们很高兴宣布发布 SEED-Bench-2-Plus，这是一个专门为富文本视觉理解设计的基准测试。相应的数据集发布在 SEED-Bench-2-Plus。

[2024.4.23] 我们很高兴分享 Gemini-Vision-Pro 和 Claude-3-Opus 在 SEED-Bench-1 和 SEED-Bench-2 上的全面评估结果。您可以在 SEED-Bench 排行榜上查看详细性能。请注意，对于 Gemini-Vision-Pro，我们仅报告模型在任务中至少 50% 有效数据响应时的任务性能。

[2024.2.27] SEED-Bench 被 CVPR 2024 接收。

[2023.12.18] 我们已放置 GPT-4v 在 SEED-Bench-1 和 SEED-Bench-2 上的全面评估结果。这些结果可在 GPT-4V for SEED-Bench-1 和 GPT-4V for SEED-Bench-2 查看。如果您感兴趣，欢迎查看。

[2023.12.4] 我们已更新 SEED-Bench-2 的 SEED-Bench 排行榜。此外，我们还更新了 GPT-4v 在 SEED-Bench-1 和 SEED-Bench-2 上的评估结果。如果您感兴趣，请访问 SEED-Bench 排行榜了解更多详情。

[2023.11.30] 我们已更新 SEED-Bench-v1 JSON（手动筛选视频的多项选择题）并提供相应的视频帧以便更容易测试。请参阅 SEED-Bench 了解更多信息。

[2023.11.27] SEED-Bench-2 发布！数据和评估代码现已可用。

[2023.9.9] 我们正在积极寻找自我激励的实习生。如果您感兴趣，请随时联系我们。

[2023.8.16] SEED-Bench 排行榜发布！您现在可以上传您的模型结果。

[2023.7.30] SEED-Bench 发布！数据和评估代码现已可用。

排行榜

欢迎访问 SEED-Bench 排行榜！

排行榜提交

您现在可以在 SEED-Bench 排行榜上提交您的模型结果。您可以使用我们的评估代码来获取 'results' 文件夹中的 'results.json'，如下所示。

python eval.py --model instruct_blip --anno_path SEED-Bench.json --output-dir results --task all

然后您可以在 SEED-Bench 排行榜上上传 'results.json'。

提交后，请按刷新按钮获取最新结果。

数据准备

您可以从 HuggingFace 仓库下载 SEED-Bench 发布的数据：SEED-Bench、SEED-Bench-2、SEED-Bench-2-Plus 和 SEED-Bench-H。此外，您可以从ModelScope下载数据。数据准备请参考DATASET.md。

安装

请参考INSTALL.md。

运行评估

请参考EVALUATION.md。

许可证

SEED-Bench在Apache License Version 2.0下发布。

声明

SEED-Bench-2-Plus

数据来源：来自互联网的CC-BY许可下的数据。

如果您认为任何数据侵犯了您的权利，请与我们联系，我们将删除它。

SEED-Bench-2

数据来源：

维度1-9，23（上下文描述）：Conceptual Captions数据集（https://ai.google.com/research/ConceptualCaptions/），遵循其许可证（https://github.com/google-research-datasets/conceptual-captions/blob/master/LICENSE）。版权属于原始数据集所有者。
维度9（文本识别）：ICDAR2003（http://www.imglab.org/db/index.html），ICDAR2013（https://rrc.cvc.uab.es/?ch=2），IIIT5k（https://cvit.iiit.ac.in/research/projects/cvit-projects/the-iiit-5k-word-dataset），和SVT（http://vision.ucsd.edu/~kai/svt/）。版权属于原始数据集所有者。
维度10（名人识别）：MME（https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation）和MMBench（https://github.com/open-compass/MMBench），遵循MMBench许可证（https://github.com/open-compass/MMBench/blob/main/LICENSE）。版权属于原始数据集所有者。
维度11（地标识别）：Google Landmark Dataset v2（https://github.com/cvdfoundation/google-landmark），在无ND限制的CC-BY许可下。
维度12（图表理解）：PlotQA（https://github.com/NiteshMethani/PlotQA），遵循其许可证（https://github.com/NiteshMethani/PlotQA/blob/master/LICENSE）。
维度13（视觉指代表达）：VCR（http://visualcommonsense.com），遵循其许可证（http://visualcommonsense.com/license/）。
维度14（科学知识）：ScienceQA（https://github.com/lupantech/ScienceQA），遵循其许可证（https://github.com/lupantech/ScienceQA/blob/main/LICENSE-DATA）。
维度15（情感识别）：FER2013（https://www.kaggle.com/competitions/challenges-in-representation-learning-facial-expression-recognition-challenge/data），遵循其许可证（https://www.kaggle.com/competitions/challenges-in-representation-learning-facial-expression-recognition-challenge/rules#7-competition-data）。
维度16（视觉数学）：MME（https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation）和来自互联网的CC-BY许可下的数据。
维度17（差异识别）：MIMICIT（https://github.com/Luodian/Otter/blob/main/mimic-it/README.md），遵循其许可证（https://github.com/Luodian/Otter/tree/main/mimic-it#eggs）。
维度18（表情包理解）：来自互联网的CC-BY许可下的数据。
维度19（全局视频理解）：Charades（https://prior.allenai.org/projects/charades），遵循其许可证（https://prior.allenai.org/projects/data/charades/license.txt）。SEED-Bench-2提供每个视频的8帧。
维度20-22（动作识别、动作预测、程序理解）：Something-Something v2（https://developer.qualcomm.com/software/ai-datasets/something-something），Epic-Kitchen 100（https://epic-kitchens.github.io/2023），和Breakfast（https://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/）。SEED-Bench-2提供每个视频的8帧。
维度24（交错图文分析）：来自互联网的CC-BY许可下的数据。
维度25（文本到图像生成）：CC-500（https://github.com/weixi-feng/Structured-Diffusion-Guidance）和ABC-6k（https://github.com/weixi-feng/Structured-Diffusion-Guidance），遵循其许可证（https://github.com/weixi-feng/Structured-Diffusion-Guidance/blob/master/LICENSE），图像由Stable-Diffusion-XL（https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0）生成，遵循其许可证（https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/LICENSE.md）。
维度26（下一帧预测）：Epic-Kitchen 100（https://epic-kitchens.github.io/2023），遵循其许可证（https://creativecommons.org/licenses/by-nc/4.0/）。
维度27（文本图像创作）：来自互联网的CC-BY许可下的数据。

如果您认为任何数据侵犯了您的权利，请与我们联系，我们将删除它。

SEED-Bench-1

对于SEED-Bench-1的图像，我们使用来自Conceptual Captions数据集（https://ai.google.com/research/ConceptualCaptions/）的数据，遵循其许可证（https://github.com/google-research-datasets/conceptual-captions/blob/master/LICENSE）。腾讯不拥有这些图像的版权，版权属于Conceptual Captions数据集的原始所有者。

对于SEED-Bench-1的视频，我们使用来自Something-Something v2（https://developer.qualcomm.com/software/ai-datasets/something-something）， Epic-kitchen 100（https://epic-kitchens.github.io/2023）和 Breakfast（https://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/）的数据。我们只提供视频名称。请在他们的官方网站下载它们。

引用

如果您发现这个仓库有用，请考虑引用它：

@article{li2024seed2plus,
  title={SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension},
  author={Li, Bohao and Ge, Yuying and Chen, Yi and Ge, Yixiao and Zhang, Ruimao and Shan, Ying},
  journal={arXiv preprint arXiv:2404.16790},
  year={2024}
}

@article{li2023seed2,
  title={SEED-Bench-2: Benchmarking Multimodal Large Language Models},
  author={Li, Bohao and Ge, Yuying and Ge, Yixiao and Wang, Guangzhi and Wang, Rui and Zhang, Ruimao and Shan, Ying},
  journal={arXiv preprint arXiv:2311.17092},
  year={2023}
  }

@article{li2023seed,
  title={Seed-bench: Benchmarking multimodal llms with generative comprehension},
  author={Li, Bohao and Wang, Rui and Wang, Guangzhi and Ge, Yuying and Ge, Yixiao and Shan, Ying},
  journal={arXiv preprint arXiv:2307.16125},
  year={2023}
}