医疗大语言模型助力临床决策支持
Meditron是一套开源医疗大语言模型,包含7B和70B两个版本。这些模型基于Llama-2,通过在医学语料库上持续预训练而来。Meditron-70B在医学推理任务中的表现超越了Llama-2-70B、GPT-3.5和Flan-PaLM。虽然Meditron旨在提升临床决策支持,但在实际医疗应用中仍需谨慎,并进行充分的测试和临床试验。
Meditron是一套开源医疗大型语言模型(LLMs)。
我们发布了Meditron-7B和Meditron-70B,这两个模型是通过在全面策划的医学语料库上继续预训练来从Llama-2适应到医学领域的。该语料库包括精选的PubMed论文和摘要、一个新的国际认可的医疗指南数据集以及一般领域语料库。
经过相关数据微调后,Meditron-70B在多项医学推理任务上的表现优于Llama-2-70B、GPT-3.5和Flan-PaLM。
<details open> <summary><strong>注意事项</strong></summary> <blockquote style="background-color: #f2f2f2; padding: 10px; margin: 0 0 10px; border-left: 5px solid #ddd;"> 虽然Meditron旨在从高质量证据来源编码医学知识,但它尚未适应于适当、安全或在专业可操作约束内传递这些知识。我们建议在没有进行广泛的用例调整以及额外测试(特别包括在真实世界实践环境中的随机对照试验)的情况下,不要在医疗应用中使用Meditron。 </blockquote> </details>您可以直接从HuggingFace模型中心加载Meditron模型,如下所示:
<img width=100% src="https://yellow-cdn.veclightyear.com/835a84d5/1d57b42d-720b-440b-a268-0b9a29704464.png" alt="流程图" title="流程图">from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("epfl-llm/meditron-70b") model = AutoModelForCausalLM.from_pretrained("epfl-llm/meditron-70b")
我们发布了用于下载和预处理Meditron训练数据的代码。
MediTron的领域适应性预训练语料库GAP-Replay结合了来自四个语料库的481亿个标记:
您可以通过在gap-replay
文件夹中运行./download.sh
来下载和预处理整个GAP-Replay语料库。
您可以从HuggingFace数据集中心下载我们的指南语料库中的36K开放访问文章。
from datasets import load_dataset dataset = load_dataset("epfl-llm/guidelines")
您可以通过在guidelines
文件夹中运行./download.sh
来抓取和清理所有46K条指南(包括受限访问来源)。
更多详细信息可以在GAP-Replay文档中找到。