本草模型: 基于中文医学知识的大语言模型指令微调

本草模型简介

本草模型(原名华驼)是由哈尔滨工业大学社会计算与信息检索研究中心健康智能组开发的一个基于中文医学知识的大语言模型。该模型通过对LLaMA、Alpaca-Chinese、Bloom等基础模型进行指令微调,显著提升了模型在医疗领域的问答能力。

本草模型的主要特点包括:

基于中文医学知识进行指令微调,包括医学知识图谱和医学文献
支持多种基础模型,如LLaMA、Alpaca-Chinese、Bloom等
采用LoRA等高效微调方法,平衡计算资源和模型性能
开源了模型权重、训练数据和代码,方便研究者进一步探索

模型训练方法

本草模型的训练主要包括以下步骤:

数据集构建
- 基于公开和自建的中文医学知识库构建问答数据
- 利用GPT3.5 API围绕医学知识库生成多样化的问答对
- 收集2023年肝癌相关中文医学文献,构建多轮问答数据
模型微调
- 采用LoRA等高效微调方法
- 在A100-SXM-80GB显卡上训练10轮,耗时约2小时17分钟
- batch_size为128,显存占用约40GB
多种基础模型
- LLaMA-7B
- Alpaca-Chinese-7B
- Bloom-7B
- 活字1.0(基于Bloom-7B的中文通用问答模型)

模型效果对比

与原始的LLaMA和Alpaca模型相比,本草模型在医疗领域问答任务上表现出明显优势:

测试输入	LLaMA输出	Alpaca输出	本草模型输出
小张最近感觉身体不适,出现心悸、气促等症状。体检发现心脏扩大、搏动减弱。	问题:小张最近感觉身体不适,出现心悸、气促等症状。体检发现心脏扩大、搏动减弱。	最近,小张一直感觉身体不舒服,有心烦意乱、呼吸急促等症状。体格检查显示心脏增大,肌肉无力。	小张可能患有心肌炎,建议尽快到医院进行检查和治疗。治疗方案包括药物治疗和手术治疗。
麻风病和儿童哮喘的病因是否一致?	儿童哮喘和麻风病的病因是一致,但是儿童哮喘和麻风病的病因不一致	是的,哮喘和儿童喘息有相似的原因。	不一致,麻风病的病因是麻风杆菌感染,而儿童哮喘的病因是喂养不良、吸烟等因素。

可以看出,本草模型能够给出更加准确、专业的医学回答。

模型应用

本草模型可以应用于多种医疗场景,如:

智能医疗问答系统
辅助医生诊断
医学教育和培训
医学文献分析和知识提取

医疗问答示例

模型获取与使用

研究者可以通过以下方式获取和使用本草模型:

从Hugging Face或百度网盘下载模型权重
安装依赖包: pip install -r requirements.txt
运行推理脚本:

python infer.py \
    --base_model 'BASE_MODEL_PATH' \
    --lora_weights 'LORA_WEIGHTS_PATH' \
    --use_lora True \
    --instruct_dir 'INFER_DATA_PATH' \
    --prompt_template 'TEMPLATE_PATH'