medalpaca

medAlpaca：用于医疗问答的微调大型语言模型

项目概述

MedAlpaca在Stanford Alpaca和AlpacaLoRA的基础上进行扩展，提供一套专门针对医疗问答和对话应用进行微调的先进大型语言模型。我们的主要目标是提供一系列开源语言模型，为医疗聊天机器人解决方案的无缝开发铺平道路。

这些模型经过各种医学文本的训练，包括医学闪卡、维基百科和对话数据集等资源。有关使用的数据的更多详细信息，请参阅数据部分。

开始使用

使用conda创建一个新的虚拟环境

conda create -n medalpaca python>=3.9

安装所需的包：

pip install -r requirements.txt

medAlpaca的训练

内存要求

我们对在单个GPU上使用Medical Meadow小数据集（约6000个问答对）对LLaMA 7b进行微调所需的GPU内存以及每个epoch的大致持续时间进行了基准测试：

模型	8位训练	LoRA	fp16	bf16	使用的VRAM	梯度检查点	每个epoch的持续时间
LLaMA 7b	是	是	是	否	8.9 GB	否	77:30
LLaMA 7b	否	是	是	否	18.8 GB	否	14:30
LLaMA 7b	否	否	是	否	OOM	否	-
LLaMA 7b	否	否	否	是	79.5 GB	是	35:30
LLaMA 7b	否	否	否	否	OOM	是	-

基于LLaMA训练medAlpaca

如果你有权访问LLaMA或Alpaca的权重，你可以使用以下命令对模型进行微调。只需将<PATH_TO_LLAMA_WEIGHTS>替换为包含LLaMA或Alpaca权重的文件夹。

python medalpaca/train.py \
    --model PATH_TO_LLAMA_WEIGHTS \
    --data_path medical_meadow_small.json \
    --output_dir 'output' \
    --train_in_8bit True \  
    --use_lora True \
    --bf16 True \
    --tf32 False \
    --fp16 False \
    --global_batch_size 128 \
    --per_device_batch_size 8 \

默认情况下，脚本执行混合精度训练。
你可以使用train_in_8bit标志切换8位训练。虽然8位训练目前仅适用于use_lora True，但你可以在不使用8位训练的情况下使用LoRA。该脚本还可以用于训练其他模型，如facebook/opt-6.7。

数据

为确保您珍贵的羊驼和羊驼能够茁壮成长，我们精心收集了高质量的生物医学开源数据集，并将它们转化为指令调优格式。我们将这项工作命名为Medical Meadow。Medical Meadow目前包含大约150万个数据点，涵盖各种任务，包括使用OpenAI的gpt-3.5-turbo转化为问答对的公开医疗数据，以及医学领域的一系列成熟NLP任务。请注意，并非所有数据的数量和质量都相同，您可能需要对数据进行子采样以训练自己的模型。我们将持续更新和完善数据集，欢迎大家为Medical Meadow贡献更多的"草料"！

数据概览

名称	来源	总数	训练中包含的数量
医学闪卡	medalpaca/medical_meadow_medical_flashcards	33955	33955
Wikidoc	medalpaca/medical_meadow_wikidoc	67704	10000
Wikidoc患者信息	medalpaca/medical_meadow_wikidoc_patient_information	5942	5942
Stackexchange学术	medalpaca/medical_meadow_stack_exchange	40865	40865
Stackexchange生物学	medalpaca/medical_meadow_stack_exchange	27887	27887
Stackexchange健身	medalpaca/medical_meadow_stack_exchange	9833	9833
Stackexchange健康	medalpaca/medical_meadow_stack_exchange	7721	7721
Stackexchange生物信息学	medalpaca/medical_meadow_stack_exchange	5407	5407
USMLE自我评估第1步	medalpaca/medical_meadow_usmle_self	119	92 (仅用于测试)
USMLE自我评估第2步	medalpaca/medical_meadow_usmle_self	120	110 (仅用于测试)
USMLE自我评估第3步	medalpaca/medical_meadow_usmle_self	135	122 (仅用于测试)
MEDIQA	原始, 预处理	2208	2208
CORD-19	原始, 预处理	1056660	50000
MMMLU	原始, 预处理	3787	3787
Pubmed健康建议	原始, 预处理	10178	10178
Pubmed因果关系	原始, 预处理	2446	2446
ChatDoctor	原始	215000	10000
OpenAssistant	原始	9209	9209

数据描述

请参阅DATA_DESCRIPTION.md

基准测试

我们正在对所有模型进行USMLE自我评估基准测试，该测试可在此链接获取。请注意，我们删除了所有包含图像的问题，因为我们的模型不是多模态的。

模型	步骤1	步骤2	步骤3
LLaMA 7b	0.198	0.202	0.203
Alpaca 7b naive (权重)	0.275	0.266	0.293
Alpaca 7b LoRA	0.220	0.138	0.252
MedAlpaca 7b	0.297	0.312	0.398
MedAlpaca 7b LoRA	0.231	0.202	0.179
MedAlpaca 7b LoRA 8bit	0.231	0.241	0.211
ChatDoctor (7b)	0.187	0.185	0.148
LLaMA 13b	0.222	0.248	0.276
Alpaca 13b naive	0.319	0.312	0.301
MedAlpaca 13b	0.473	0.477	0.602
MedAlpaca 13b LoRA	0.250	0.255	0.255
MedAlpaca 13b LoRA 8bit	0.189	0.303	0.289
MedAlpaca 30b (仍在训练中)	待定	待定	待定
MedAlpaca 30b LoRA 8bit	0.315	0.327	0.361

我们正在不断改进训练过程和评估提示。预计此表格会发生较大变化。

访问模型

访问我们的模型库，查看我们的羊驼模型：https://huggingface.co/medalpaca

显而易见，但在此平台上提供的模型仅用于研究目的，不应在任何医疗保健应用或环境中使用。虽然我们很高兴展示我们的实验模型，但请注意，这些模型尚未经过广泛测试或验证，无法保证其可靠性。我们恳请您在使用这些模型时谨慎行事，并感谢您在我们继续探索和开发这项创新技术时的理解。

论文

@article{han2023medalpaca,
  title={MedAlpaca--An Open-Source Collection of Medical Conversational AI Models and Training Data},
  author={Han, Tianyu and Adams, Lisa C and Papaioannou, Jens-Michalis and Grundmann, Paul and Oberhauser, Tom and L{\"o}ser, Alexander and Truhn, Daniel and Bressem, Keno K},
  journal={arXiv preprint arXiv:2304.08247},
  year={2023}
}