Multi-Modality-Arena

Multi-Modality Arena 项目介绍

项目概况

Multi-Modality Arena 是一个面向大型多模态模型的评估平台。在这个平台上，两个匿名模型将被并排用于视觉问答任务的比较。这个项目已经发布了相关演示，并欢迎各界人士参与到这次评估活动中。

全面的多模态模型评估

OmniMedVQA：针对医疗大规模LVLM的综合评估

OmniMedVQA数据集：该数据集包含118,010张图像和127,995个问答项目，涵盖12种不同的模态，并涉及超过20个人体解剖区域。
12种模型：包括8种通用领域的大型视觉语言模型（LVLM）和4种医疗专业的LVLM。

Tiny LVLM-eHub：Bard参与的早期多模态实验

小型数据集：包括50个随机样本的42个文本相关视觉基准，总共有2,100个样本，便于使用。
更多模型：另外添加4个模型，使模型总数达到12个，其中包括谷歌的Bard。
ChatGPT 合集评估：与之前的词匹配方法相比，与人类评估结果更为一致。

LVLM-eHub：大型视觉语言模型的评估基准

LVLM-eHub是一个对公众开放的大型多模态模型的综合性评估基准。它对8个LVLM在6个多模态能力类别中进行广泛评估，涵盖47个数据集和1个线上平台。

LVLM排行榜

LVLM排行榜系统地根据模型的特定目标能力（如视觉感知、视觉推理、视觉常识、视觉知识获取和对象幻觉）对数据集进行分类，并包括最近发布的模型以增强其全面性。

排名	模型	版本	分数
🏅	InternVL	InternVL-Chat	327.61
🥈	InternLM-XComposer-VL	InternLM-XComposer-VL-7B	322.51
🥉	Bard	Bard	319.59

（备注：完整榜单见原文档）

更新日志

2024年3月31日：发布了OmniMedVQA，这是面向医疗LVLM的大规模综合评估基准。
2023年10月16日：根据LVLM-eHub提供的能力水平数据集进行了分割，新增了8个最近发布的模型。

支持的多模态模型

下列模型正在参与随机构建的竞争中：

MiniGPT-4
Salesforce/BLIP2
DAMO Academy/mPLUG-Owl
等更多模型……

如何开始使用

用户需要设置合适的环境以运行控制器和服务端，并根据不同模型需求创建特定的环境。使用简单的命令行操作即可启动控制台、模型工作器和Gradio网络服务器，通过网络界面与模型进行互动。

贡献指南

项目欢迎对质量评估的各类贡献。在LVLM Evaluation和LVLM Arena两个方面都可以进行贡献。贡献者可以通过电子邮件提供评估结果或模型推理API以参与项目。

特别感谢

我们对ChatBot Arena的团队及其相关论文表示感谢，该项目激励了我们在LVLM评估方面的努力。同时，也感谢提供LVLM和数据集的各个团队，他们对大规模视觉语言模型的发展做出了重大贡献。

使用条款

该项目是一个实验性的研究工具，仅供非商业目的使用。项目部署了有限的安全措施，可能生成不当内容，不能用于任何非法、有害、暴力、种族主义或色情的用途。