HuatuoGPT-Vision：大规模注入医学视觉知识到多模态大语言模型

<div align="center"> <h5> 📃 <a href="https://arxiv.org/abs/2406.19280" target="_blank">论文</a> • 🖥️ <a href="https://vision.huatuogpt.cn/#/" target="_blank">演示</a> </h5> </div> <div align="center"> <h4> 📚 <a href="https://huggingface.co/datasets/FreedomIntelligence/PubMedVision" target="_blank">PubMedVision</a> </h4> </div> <div align="center"> <h4> 🤗 <a href="https://huggingface.co/FreedomIntelligence/HuatuoGPT-Vision-34B" target="_blank">HuatuoGPT-Vision-34B</a> • 🤗 <a href="https://huggingface.co/FreedomIntelligence/HuatuoGPT-Vision-7B">HuatuoGPT-Vision-7B</a> </h4> </div>

✨ 更新

[2024/06/28]：我们发布了医学多模态大语言模型，包括 HuatuoGPT-Vision-34B 和 HuatuoGPT-Vision-7B。
[2024/06/26]：我们发布了 PubMedVision，这是一个包含 130万 高质量医学视觉问答数据集，用于注入医学视觉知识。

🩻 PubMedVision

PubMedVision 是一个大规模、高质量的医学视觉问答数据集，基于PubMed的图文对构建，并使用GPT-4V重新格式化。

	数据量	下载链接
PubMedVision 数据集	1,294,062	HF链接

PubMedVision 能显著提升多模态大语言模型（如LLaVA-v1.5）的医学多模态能力。

	VQA-RAD	SLAKE	PathVQA	PMC-VQA
LLaVA-v1.6-34B	58.6	67.3	59.1	44.4
LLaVA-v1.5-LLaMA3-8B	54.2	59.4	54.1	36.4
LLaVA-v1.5-LLaMA3-8B + PubMedVision	63.8	74.5	59.9	52.7

	OmniMedVQA	MMMU 健康与医学（测试集）
LLaVA-v1.6-34B	61.4	48.8
LLaVA-v1.5-LLaMA3-8B	48.8	38.2
LLaVA-v1.5-LLaMA3-8B + PubMedVision	75.1	49.1

👨‍⚕️ HuatuoGPT-Vision

HuatuoGPT-Vision 是我们基于 PubMedVision 构建的医学多模态大语言模型。

模型获取

我们的模型在Huggingface上提供两个版本：

	基础模型	检查点
HuatuoGPT-Vision-7B	Qwen2-7B	HF链接
HuatuoGPT-Vision-34B	Yi-1.5-34B	HF链接

模型使用

命令行界面

通过命令行聊天：

python cli.py --model_dir huatuogpt-vision模型路径

模型推理

使用我们的ChatBot进行推理：

query = '这张图片展示了什么？'
image_paths = ['图片路径1']

from cli import HuatuoChatbot
bot = HuatuoChatbot(huatuogpt-vision模型路径)
output = bot.inference(query, image_paths)
print(output) # 打印模型输出

医学多模态性能

	VQA-RAD	SLAKE	PathVQA	PMC-VQA
LLaVA-Med-7B	51.4	48.6	56.8	24.7
LLaVA-v1.6-34B	58.6	67.3	59.1	44.4
HuatuoGPT-Vision-7B	63.7	76.2	57.9	54.3
HuatuoGPT-Vision-34B	68.1	76.9	63.5	58.2

	OmniMedVQA	MMMU 健康与医学（测试集）
LLaVA-Med-7B	44.5	36.9
LLaVA-v1.6-34B	61.4	48.8
HuatuoGPT-Vision-7B	74.0	50.6
HuatuoGPT-Vision-34B	76.9	54.4

🩺 HuatuoGPT 系列

探索我们的HuatuoGPT系列：

HuatuoGPT：驯化语言模型成为医生
HuatuoGPT-II：大语言模型医学适应的一阶段训练
HuatuoGPT-Vision：大规模注入医学视觉知识到多模态大语言模型

引用

@misc{chen2024huatuogptvisioninjectingmedicalvisual,
      title={HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale}, 
      author={Junying Chen and Ruyi Ouyang and Anningzhe Gao and Shunian Chen and Guiming Hardy Chen and Xidong Wang and Ruifei Zhang and Zhenyang Cai and Ke Ji and Guangjun Yu and Xiang Wan and Benyou Wang},
      year={2024},
      eprint={2406.19280},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2406.19280}, 
}