PMC-LLaMA

"PMC-LLaMA：构建开源医学语言模型"的官方代码。

最新消息
环境
快速开始
训练
结果
- 问答基准测试
- 零样本案例
致谢
联系方式

我们证明，医学大语言模型应首先使用领域语料进行预训练，然后再使用指令跟随数据集进行微调。

我们已发布最新模型 PMC_LLaMA_13B，该模型在我们的指令数据集上进行了微调。它表现出比 MedLLaMA_13B 更好的遵循用户指令能力。

同样，可以轻松加载：

import transformers
import torch
tokenizer = transformers.LlamaTokenizer.from_pretrained('axiong/PMC_LLaMA_13B')
model = transformers.LlamaForCausalLM.from_pretrained('axiong/PMC_LLaMA_13B')

在此我们列出 PMC_LLaMA 的版本和简介。

MedLLaMA_13B 在医学语料上预训练，PMC_LLaMA_13B 在此基础上进一步微调。

版本	链接	简介	发布日期
MMed-Llama-3	https://huggingface.co/Henrychur/MMed-Llama-3-8B	最新在 Llama-3 上预训练的多语言 LLM	2024/05/22
MMedLM	https://github.com/MAGIC-AI4Med/MMedLM	进一步预训练的多语言 LLM	2024/02/21
PMC_LLaMA_13B	https://huggingface.co/axiong/PMC_LLaMA_13B	指令微调	2023/09/01
MedLLaMA_13B	https://huggingface.co/chaoyi-wu/MedLLaMA_13B	在 480 万篇 PubmedCentral 论文和医学书籍上预训练 LLaMA	2023/05/01
PMC_LLaMA_7B_10_epoch	https://huggingface.co/chaoyi-wu/PMC_LLAMA_7B_10_epoch	类似于 PMC_LLaMA_7B 但训练了 10 个 epoch	2023/05/01
PMC_LLaMA_7B	https://huggingface.co/chaoyi-wu/PMC_LLAMA_7B	使用 PMC 论文对 LLaMA-7b 进行 5 个 epoch 的微调	2023/04/25

环境

按以下方式简单设置所需环境：

conda install pytorch==1.13.0 torchvision==0.14.0 torchaudio==0.13.0 pytorch-cuda=11.6 -c pytorch -c nvidia
pip install transformers=4.28.1, sentencepiece, datasets

快速开始

查看 simple_test.py 以快速使用 PMC-LLaMA，或者您可以按照以下简单示例操作。

import transformers
import torch
tokenizer = transformers.LlamaTokenizer.from_pretrained('axiong/PMC_LLaMA_13B')
model = transformers.LlamaForCausalLM.from_pretrained('axiong/PMC_LLaMA_13B')
model.cuda()  # 将模型移至 GPU

prompt_input = (
    '以下是描述任务的指令，以及提供更多上下文的输入。'
    '请写出恰当完成请求的响应。\n\n'
    '### 指令:\n{instruction}\n\n### 输入:\n{input}\n\n### 响应:'
)
example = {
    "instruction": "你是一名医生，请根据患者的描述回答医疗问题。直接回答最佳选项。",
    "input": (
        "###问题：一名23岁的孕妇，孕期22周，出现排尿时灼热感。"
        "她表示这种症状从1天前开始，并且尽管增加饮水量和服用蔓越莓提取物，症状仍在恶化。"
        "除此之外，她感觉良好，正在接受医生的孕期随访。"
        "她的体温为97.7°F (36.5°C)，血压122/77 mmHg，脉搏80次/分，呼吸频率19次/分，室内空气条件下血氧饱和度98%。"
        "体格检查显示无肋脊角压痛，子宫增大。"
        "以下哪项是该患者的最佳治疗方案？"
        "###选项：A. 氨苄青霉素 B. 头孢曲松 C. 多西环素 D. 呋喃妥因"
    )
}
input_str = [prompt_input.format_map(example)]

model_inputs = tokenizer(
    input_str,
    return_tensors='pt',
    padding=True,
)
print( f"\033[32mmodel_inputs\033[0m: { model_inputs }" )

topk_output = model.generate(
    model_inputs.input_ids.cuda(),
    max_new_tokens=1000,
    top_k=50
)
output_str = tokenizer.batch_decode(topk_output)
print('模型预测结果: ', output_str[0])

训练

训练过程可以分为两个阶段：预训练和指令微调。

预训练

预训练的脚本位于Pretrain/training.sh。

我们的预训练数据集来源于S2ORC。只有那些带有PubMed ID的论文被视为与医学相关，并在预训练过程中使用。

医学书籍列表在本仓库中以MedicalBook.xlsx的形式提供，由于版权原因，我们无法发布原始内容。如需复现，请购买并处理这些书籍。

关于如何微调LLaMA的更多细节，可以参考Finetune_LLAMA

指令微调

我们还在SFT/train.py提供了指令微调脚本。你可以在PMC LLaMA Instructions找到我们的指令数据集。

结果

QA基准测试

方法	模型大小	USMLE	MedMCQA	PubMedQA
人类 (及格)	-	50.0	--	60.0
人类 (专家)	-	87.0	90.0	78.0
ChatGPT	175B	57.0	44.7	63.9
LLaMA-2	13B	42.73	37.41	68.0
LLaMA-2	70B	43.68	35.02	74.3
Med-Alpaca	13B	30.85	31.13	53.2
Chat-Doctor	7B	33.93	31.10	54.3
PMC_LLaMA_13B	13B	56.36	56.04	77.9