改进电子健康记录分析的Bio_Discharge_Summary_BERT模型
Bio_Discharge_Summary_BERT模型基于BioBERT进行初始化,专注于分析MIMIC III数据库的出院小结文本。经过专业的数据预处理和基于Google BERT的训练,该模型在医疗文本处理任务中展现出优异表现,可以通过transformers库加载,用于医疗研究和实际应用。
Bio_Discharge_Summary_BERT模型是从公开的ClinicalBERT嵌入中衍生出来的四个独特模型之一。这些模型最初是基于BERT-Base或BioBERT,并在不同的数据集上进行训练。本项目专注于从BioBERT初始化,并仅使用MIMIC数据库的出院总结数据进行训练。
Bio_Discharge_Summary_BERT模型的训练数据来自MIMIC III数据库。MIMIC是一个包含来自波士顿Beth Israel医院ICU病人电子健康记录的数据库。该数据库中包含了大量的出院总结,以供模型进行学习,总计约880百万字。
在预训练前,MIMIC中的每条笔记首先使用基于规则的部分分离器进行分段,例如,将出院总结分为“当前病史”、“家族史”和“住院简要经过”等部分。然后,每个部分使用SciSpacy的分词器进一步分为句子。
模型使用来自谷歌BERT代码库的代码,在GeForce GTX TITAN X 12 GB GPU上进行训练。模型参数使用BioBERT进行初始化。
在模型的预训练过程中,使用的批量大小为32,最大序列长度为128,学习率设为5×10^-5。模型训练了150,000步,并为输入数据添加了不同掩码的复制因子设为5。其他参数保持默认,具体包括掩码语言模型的概率为0.15,每个序列的最大预测数为20。
可以通过transformers库加载模型:
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT") model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
想了解更多关于该模型的细节以及其在自然语言推理(NLI)和命名实体识别(NER)任务上的表现,请参考原始论文:Publicly Available Clinical BERT Embeddings。
如果有任何问题,可以在clinicalBERT的Github仓库中提交问题,或发送邮件到emilya@mit.edu以获得帮助。
AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
一站式AI创作平台
提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作
AI办公助手,复杂任务高效处理
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快 速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。