Meditron：革新医疗领域的开源大语言模型

Meditron：开创医疗AI新纪元

在人工智能快速发展的今天，医疗保健领域正迎来一场革命性的变革。由瑞士洛桑联邦理工学院（EPFL）LLM团队开发的Meditron项目，正是这场变革的先锋。Meditron是一套开源的医疗大语言模型（LLMs），它的出现不仅标志着医疗AI的重大突破，更预示着未来医疗服务的新方向。

Meditron的核心：医学知识与AI的完美融合

Meditron项目推出了两个主要模型：Meditron-7B和Meditron-70B。这两个模型都是基于Llama-2进行医疗领域适应性训练而来。研究团队精心策划了一个全面的医学语料库，包括精选的PubMed论文和摘要、国际认可的医疗指南新数据集，以及通用领域语料库。通过这种方式，Meditron成功地将先进的AI技术与深厚的医学知识融为一体。

Meditron Pipeline

值得注意的是，Meditron-70B在相关数据上进行微调后，其表现超越了Llama-2-70B、GPT-3.5和Flan-PaLM等模型，在多项医学推理任务中展现出卓越的能力。这一成果充分证明了Meditron在医疗AI领域的潜力和竞争力。

Meditron的技术细节：深度解析

Meditron采用因果解码器模型架构，这是一种仅解码器的transformer语言模型。主要使用英语作为工作语言，具有4k tokens的上下文长度。模型采用了LLAMA 2社区许可协议，而代码则遵循Apache 2.0许可。

Meditron-70B是在Llama-2-70B的基础上进行继续预训练而来。它能够接收文本输入，并生成文本输出。值得一提的是，Meditron是一个静态模型，基于离线数据集进行训练。研发团队承诺，随着模型性能的不断提升，未来将发布新版本的调优模型。

Meditron的训练过程：精益求精

Meditron的训练数据来源广泛且高质量。研究团队开发了一个名为GAP-Replay的领域适应性预训练语料库，其中包含了481亿个标记，涵盖四个主要语料库：

临床指南：46,000份来自各种医疗相关机构的临床实践指南。
论文摘要：1610万份来自PubMed和PubMed Central的封闭访问论文摘要。
医学论文：500万份公开可用的PubMed和PubMed Central全文文章。
重放数据集：4亿个标记的通用领域预训练数据，取样自RedPajama-v1。

训练过程中，研究团队使用了Megatron-LLM分布式训练库，这是NVIDIA Megatron LM项目的衍生版本，旨在优化训练效率。硬件配置相当强大，包括16个节点，每个节点配备8个NVIDIA A100（80GB）SXM GPU，通过NVLink和NVSwitch连接，配有单个NVIDIA ConnectX-6 DX网卡，以及2个AMD EPYC 7543 32核处理器和512 GB RAM。

训练采用了三向并行方案：