BioGPT

本仓库包含了论文BioGPT:用于生物医学文本生成和挖掘的生成式预训练Transformer模型的实现，作者为罗仁谦、孙礼爱、夏英策、秦涛、张生、Hoifung Poon和刘铁岩。

要求和安装

PyTorch 版本 == 1.12.0
Python 版本 == 3.10
fairseq 版本 == 0.12.0:

git clone https://github.com/pytorch/fairseq
cd fairseq
git checkout v0.12.0
pip install .
python setup.py build_ext --inplace
cd ..

Moses

git clone https://github.com/moses-smt/mosesdecoder.git
export MOSES=${PWD}/mosesdecoder

fastBPE

git clone https://github.com/glample/fastBPE.git
export FASTBPE=${PWD}/fastBPE
cd fastBPE
g++ -std=c++11 -pthread -O3 fastBPE/main.cc -IfastBPE -o fast

sacremoses

pip install sacremoses

sklearn

pip install scikit-learn

请记得将环境变量MOSES和FASTBPE分别设置为Moses和fastBPE的路径，因为稍后会用到。

入门指南

预训练模型

我们提供了预训练的BioGPT模型检查点以及针对下游任务的微调检查点，可以通过URL下载或通过Hugging Face 🤗 Hub获取。

模型	描述	URL	🤗 Hub
BioGPT	预训练的BioGPT模型检查点	链接	链接
BioGPT-Large	预训练的BioGPT-Large模型检查点	链接	链接
BioGPT-QA-PubMedQA-BioGPT	在PubMedQA上微调的BioGPT问答任务模型	链接
BioGPT-QA-PubMedQA-BioGPT-Large	在PubMedQA上微调的BioGPT-Large问答任务模型	链接
BioGPT-RE-BC5CDR	在BC5CDR上微调的BioGPT关系抽取任务模型	链接
BioGPT-RE-DDI	在DDI上微调的BioGPT关系抽取任务模型	链接
BioGPT-RE-DTI	在KD-DTI上微调的BioGPT关系抽取任务模型	链接
BioGPT-DC-HoC	在HoC上微调的BioGPT文档分类任务模型	链接

下载这些文件并将它们解压到本项目的checkpoints文件夹中。

例如：

mkdir checkpoints
cd checkpoints
wget https://msralaphilly2.blob.core.windows.net/release/BioGPT/checkpoints/Pre-trained-BioGPT.tgz?sp=r&st=2023-11-13T15:37:35Z&se=2099-12-30T23:37:35Z&spr=https&sv=2022-11-02&sr=b&sig=3CcG1TOhqJPBhkVutvVn3PtUq0vPyLBgwggUfojypfY%3D
tar -zxvf Pre-trained-BioGPT.tgz

使用示例

在代码中使用预训练的BioGPT模型：

import torch
from fairseq.models.transformer_lm import TransformerLanguageModel
m = TransformerLanguageModel.from_pretrained(
        "checkpoints/Pre-trained-BioGPT", 
        "checkpoint.pt", 
        "data",
        tokenizer='moses', 
        bpe='fastbpe', 
        bpe_codes="data/bpecodes",
        min_len=100,
        max_len_b=1024)
m.cuda()
src_tokens = m.encode("COVID-19 is")
generate = m.generate([src_tokens], beam=5)[0]
output = m.decode(generate[0]["tokens"])
print(output)

在代码中使用针对药物-靶点相互作用的KD-DTI数据集微调的BioGPT模型:

import torch
from src.transformer_lm_prompt import TransformerLanguageModelPrompt
m = TransformerLanguageModelPrompt.from_pretrained(
        "checkpoints/RE-DTI-BioGPT", 
        "checkpoint_avg.pt", 
        "data/KD-DTI/relis-bin",
        tokenizer='moses', 
        bpe='fastbpe', 
        bpe_codes="data/bpecodes",
        max_len_b=1024,
        beam=1)
m.cuda()
src_text="" # 输入文本,例如PubMed摘要
src_tokens = m.encode(src_text)
generate = m.generate([src_tokens], beam=args.beam)[0]
output = m.decode(generate[0]["tokens"])
print(output)

更多下游任务请参见下文。

下游任务

请查看examples文件夹中的相应子文件夹:

BC5CDR关系抽取

KD-DTI关系抽取

DDI关系抽取

HoC文档分类

PubMedQA问答

文本生成

Hugging Face 🤗 使用方法

BioGPT已集成到Hugging Face的transformers库中,模型检查点可在Hugging Face Hub上获取。

你可以直接使用pipeline进行文本生成。由于生成过程涉及一些随机性,我们设置了种子以确保可重复性:

from transformers import pipeline, set_seed
from transformers import BioGptTokenizer, BioGptForCausalLM
model = BioGptForCausalLM.from_pretrained("microsoft/biogpt")
tokenizer = BioGptTokenizer.from_pretrained("microsoft/biogpt")
generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
set_seed(42)
generator("COVID-19 is", max_length=20, num_return_sequences=5, do_sample=True)

以下是如何使用此模型在PyTorch中获取给定文本特征的方法:

from transformers import BioGptTokenizer, BioGptForCausalLM
tokenizer = BioGptTokenizer.from_pretrained("microsoft/biogpt")
model = BioGptForCausalLM.from_pretrained("microsoft/biogpt")
text = "用你想要的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

束搜索解码:

import torch
from transformers import BioGptTokenizer, BioGptForCausalLM, set_seed

tokenizer = BioGptTokenizer.from_pretrained("microsoft/biogpt")
model = BioGptForCausalLM.from_pretrained("microsoft/biogpt")

sentence = "COVID-19 is"
inputs = tokenizer(sentence, return_tensors="pt")

set_seed(42)

with torch.no_grad():
    beam_output = model.generate(**inputs,
                                 min_length=100,
                                 max_length=1024,
                                 num_beams=5,
                                 early_stopping=True
                                )
tokenizer.decode(beam_output[0], skip_special_tokens=True)