HuatuoGPT-Vision：注入医学视觉知识到大规模多模态语言模型中

HuatuoGPT-Vision

HuatuoGPT-Vision：医学视觉知识赋能多模态大语言模型

在人工智能快速发展的今天，多模态大语言模型（MLLMs）如GPT-4V等取得了显著的进展。然而，由于医疗数据的隐私性和标注成本高昂等原因，这些模型在医学多模态能力方面仍面临着挑战。为了解决这一问题，研究人员开发了HuatuoGPT-Vision项目，致力于将医学视觉知识注入到大规模多模态语言模型中。

PubMedVision：高质量医学视觉问答数据集

HuatuoGPT-Vision项目的核心是PubMedVision数据集。这是一个包含130万个高质量医学视觉问答样本的大规模数据集，由PubMed中的图像-文本对构建而成。研究人员使用GPT-4V对原始数据进行了去噪和重新格式化，以提高数据质量。

PubMedVision数据集示例

PubMedVision数据集的优势在于：

规模庞大：包含130万个医学视觉问答样本
质量可靠：经过GPT-4V处理，降低了数据噪声
多样性：涵盖广泛的医学领域和图像类型

通过在现有的多模态大语言模型上使用PubMedVision数据集进行训练，研究人员发现模型的医学多模态能力得到了显著提升。例如，在LLaVA-v1.5-LLaMA3-8B模型上，在多个医学视觉问答基准测试中都取得了明显的性能提升：

VQA-RAD：从54.2%提升到63.8%
SLAKE：从59.4%提升到74.5%
PathVQA：从54.1%提升到59.9%
PMC-VQA：从36.4%提升到52.7%

这些结果充分证明了PubMedVision数据集在提升模型医学视觉理解能力方面的有效性。

HuatuoGPT-Vision模型

基于PubMedVision数据集，研究团队开发了HuatuoGPT-Vision模型。该模型有两个版本：

HuatuoGPT-Vision-7B：基于Qwen2-7B骨干网络
HuatuoGPT-Vision-34B：基于Yi-1.5-34B骨干网络

HuatuoGPT-Vision模型架构

这两个版本的模型都在多个医学多模态基准测试中表现出色，超越了许多现有的开源模型。例如，在OmniMedVQA测试中，HuatuoGPT-Vision-34B达到了76.9%的准确率，远高于LLaVA-v1.6-34B的61.4%。

模型使用和应用

HuatuoGPT-Vision模型已在Hugging Face平台上开源，研究者和开发者可以轻松获取和使用。项目提供了简单的命令行界面和Python API，方便用户进行交互和推理。

使用命令行界面进行对话：

python cli.py --model_dir path-to-huatuogpt-vision-model

使用Python API进行推理：

from cli import HuatuoChatbot
bot = HuatuoChatbot(path-to-huatuogpt-vision-model)
output = bot.inference("What does the picture show?", ["image_path1"])
print(output)