在人工智能与医疗健康深度融合的今天,一个能够"看懂"医学影像并给出专业诊断报告的AI模型无疑具有重大意义。近日,由澳门理工大学应用科学学院的研究团队开发的XrayGLM模型,作为首个能够对胸部X光片进行诊断和描述的中文多模态医学大模型,引起了学术界和医疗界的广泛关注。
随着ChatGPT等大语言模型(LLM)的兴起,多模态AI模型在通用领域取得了长足进展。然而在专业性要求极高的医疗领域,此类模型的应用却相对滞后。虽然已有一些英文医学多模态模型的尝试,但中文领域仍是一片空白。XrayGLM正是为填补这一空白而生,旨在推动中文医学多模态大模型的发展。
XrayGLM采用了视觉模型与语言模型相结合的方法。它以VisualGLM-6B为基础,通过在中文胸部X光片诊断数据集上进行微调,使模型具备了"看"懂X光片并用自然语言描述诊断结果的能力。
具体来说,XrayGLM的主要创新点包括:
构建了一个X光影像-诊断报告
对的中文医学多模态数据集,为模型训练提供了高质量的数据支持。
在VisualGLM-6B的基础上进行微调,使模型能够理解胸部X光片的视觉特征,并将其转化为专业的诊断描述。
采用LoRA等高效的微调方法,在有限的计算资源下实现了模型性能的显著提升。
XrayGLM的训练数据主要来源于两个公开数据集: