<img src="https://yellow-cdn.veclightyear.com/ab5030c0/1099b83c-51c3-49fc-8375-9b0a9117ee11.png" style="vertical-align: -10px;" :height="50px" width="50px"> MMStar

🌐 主页 | 🤗 数据集 | 📖 论文 | 🏆 排行榜

本仓库包含论文"我们是否正确评估大型视觉语言模型？"的官方评估代码和数据集。

💡 亮点

🔥 导致当前LVLM能力误判的两个关键问题
🔥 一个精英视觉不可或缺的多模态基准，MMStar
🔥 两个指标：多模态增益（MG）和多模态泄露（ML）

📜 新闻

[2024.4.16] 🚀 MMStar已在VLMEvalKit仓库和OpenCompass排行榜中得到支持。

[2024.4.2] 🚀 Huggingface数据集和评估代码已可用！

[2024.4.1] 🚀 我们发布了ArXiv论文。

👨‍💻 待办事项

MMStar的评估代码
支持在线排行榜
筹备在线测试集，MMStar-test（这涉及与现有包含受保护测试集的多模态基准合作，欢迎联系我们！）

👀 介绍

我们深入研究了当前的评估工作，并识别出两个主要问题：

(1) 许多样本中视觉内容是不必要的。

(2) LLM和LVLM训练中存在无意的数据泄露。

这两个问题都导致了对实际多模态性能增益的误判，并可能误导LVLM的研究。为此，**我们提出了MMStar，一个由人工精心挑选的1,500个挑战样本组成的精英视觉不可或缺的多模态基准。**经过粗略筛选和人工审核，我们从总共22,401个样本中筛选出11,607个候选样本，最终选择1,500个高质量样本构建我们的MMStar基准。

在MMStar中，我们在内环展示了6个核心能力，外环呈现了18个详细轴。中环展示了每个详细维度的样本数量。每个核心能力包含精心平衡的250个样本。我们进一步确保了18个详细轴之间的相对均匀分布。

🤖 评估

您可以按照评估指南在我们的MMStar上评估任何LLM和LVLM。

🏆 排行榜

🎯 MMStar的排行榜正在持续更新，欢迎贡献您的LVLM！

请注意，为了全面评估您自己的LVLM，您需要提供三个xlsx格式的结果文件。这些应包括您的LVLM带视觉输入的结果、您的LVLM不带视觉输入的结果，以及您的原始LLM基础模型不带视觉输入的结果。我们在submits文件夹中提供了提交格式。完成上述步骤后，请通过chlin@mail.ustc.edu.cn与我们联系，提交您的结果并更新排行榜。

📧 联系方式

✒️ 引用

如果您发现我们的工作对您的研究有帮助，请考虑给予星标⭐和引用📝

@article{chen2024we,
  title={Are We on the Right Way for Evaluating Large Vision-Language Models?},
  author={Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others},
  journal={arXiv preprint arXiv:2403.20330},
  year={2024}
}