prot_bert_bfd

prot_bert_bfd

用于自监督蛋白质序列分析的ProtBert-BFD模型

ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。

掩码语言模型Huggingface蛋白质序列特征提取开源项目模型Github语言模型ProtBert-BFD

ProtBert-BFD 项目介绍

项目概述

ProtBert-BFD 是一个预训练的蛋白质序列模型,应用了掩蔽语言模型(MLM)的目标。这一模型首次在此论文中提出,并在这个仓库中发布。该模型专门针对大写氨基酸进行训练,使用时也需要大写的氨基酸字母。

模型描述

ProtBert-BFD 基于 Bert 模型,通过自监督学习在大规模蛋白质序列语料库上进行预训练。这意味着它只在原始蛋白质序列上进行训练,而无需人工标记,这使得模型可以利用大量的公开数据来自动生成输入和标签。

这个模型与原始 Bert 模型的一个重要区别在于它将每个序列视为独立的文档,因此不使用“下一句预测”策略。而在掩蔽方面,模型遵循 Bert 的训练方法,随机掩盖输入中15%的氨基酸。

最终,从这个模型中提取的特征表明,未经标记的数据(仅有蛋白质序列)的语言模型嵌入捕获了蛋白质形状的重要生物物理性质。这意味着模型学到了一些生命语言在蛋白质序列中呈现的语法。

使用意图与限制

ProtBert-BFD 模型可以用于蛋白质特征提取或在下游任务中进行微调。在某些任务中,通过微调模型而不是仅用作特征提取,可以获得更高的准确率。

如何使用

用户可以直接使用此模型与掩蔽语言模型(MLM)管道进行结合:

>>> from transformers import BertForMaskedLM, BertTokenizer, pipeline >>> tokenizer = BertTokenizer.from_pretrained('Rostlab/prot_bert_bfd', do_lower_case=False) >>> model = BertForMaskedLM.from_pretrained("Rostlab/prot_bert_bfd") >>> unmasker = pipeline('fill-mask', model=model, tokenizer=tokenizer) >>> unmasker('D L I P T S S K L V V [MASK] D T S L Q V K K A F F A L V T')

此外,还可以使用下面的方法获取给定蛋白质序列的特征:

from transformers import BertModel, BertTokenizer import re tokenizer = BertTokenizer.from_pretrained('Rostlab/prot_bert_bfd', do_lower_case=False) model = BertModel.from_pretrained("Rostlab/prot_bert_bfd") sequence_Example = "A E T C Z A O" sequence_Example = re.sub(r"[UZOB]", "X", sequence_Example) encoded_input = tokenizer(sequence_Example, return_tensors='pt') output = model(**encoded_input)

训练数据

ProtBert-BFD 模型在 BFD 数据集上进行了预训练,这个数据集中包含了 21 亿蛋白质序列。

训练过程

数据预处理

蛋白质序列使用大写处理,按空格分割并使用21个字的词汇表进行标记。模型的输入格式如下:

[CLS] 蛋白质序列 A [SEP] 蛋白质序列 B [SEP]

每个蛋白质序列被视为一个单独文档进行处理。预处理步骤重复进行两次,一次是在两个序列组合长度少于 512 个氨基酸时,另一次是在组合长度少于 2048 个氨基酸时。

掩蔽过程详细地遵循原始 Bert 模型:

  • 15% 的氨基酸被掩盖
  • 在 80% 的情况下,掩盖的氨基酸替换为 [MASK]
  • 在 10% 的情况下,掩盖的氨基酸替换为一个不同的随机氨基酸
  • 在剩下的 10% 情况下,掩盖的氨基酸保持不变。

预训练

模型在一个 TPU Pod V3-1024 上经历了一百万步的训练,其中 80 万步使用了序列长度 512(批量大小 32k),和 20 万步使用了序列长度 2048(批量大小 6k)。使用 Lamb 优化器,学习率为 0.002,权重衰减为 0.01,学习率在 140k 步时进行热启,之后呈线性衰减。

评估结果

在对下游任务进行微调时,该模型在以下任务中取得了良好的效果:

任务/数据集二级结构(三状态)二级结构(八状态)定位膜蛋白
CASP127665
TS1158473
CB5138370
DeepLoc7891

这种表现表明 ProtBert-BFD 具有很强的蛋白质序列特征提取能力,是生物信息学研究中的重要工具。

编辑推荐精选

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

下拉加载更多