生物医学数据集库促进机器学习研究
BigBIO是一个基于Huggingface datasets库开发的生物医学数据加载器库。该项目提供超过126个生物医学数据集的轻量级访问,覆盖10余种语言和12个任务类别。BigBIO致力于提高数据处理的可重复性,完善数据集来源和许可等属性的文档,并简化自然语言提示和多任务学习的元数据集生成。此外,BigBIO还支持多个主流英语生物医学基准测试中的大部分数据集。
BigBIO
(BigScience Biomedical)是一个开放的生物医学数据加载器库,基于Huggingface(🤗)的datasets
库构建,用于数据中心的机器学习。
我们的目标包括:
目前,BigBIO
提供以下支持:
BigBIO
使用这些数据集的首选方式是从官方BigBIO
中心访问它们。
至少,确保你已安装datasets
库。最好按以下方式安装所需依赖:
pip install -r requirements.txt
你可以按以下方式访问BigBIO
数据集:
from datasets import load_dataset data = load_dataset("bigbio/biosses")
在大多数情况下,脚本默认加载数据集的原始架构。你还可以访问BigBIO
分割,它简化了根据特定任务访问数据集中关键信息的过程。
例如,biosses
数据集遵循基于pairs
的架构,其中基于文本的输入(句子、段落)被分配一个"翻译"对。
from datasets import load_dataset data = load_dataset("bigbio/biosses", name="biosses_bigbio_pairs")
通常,你可以按以下方式加载数据集:
# 加载原始架构 data = load_dataset("bigbio/<你的数据集>") # 加载BigBIO架构 data = load_dataset("bigbio/<你的数据集>", name="<你的数据集>_bigbio_<架构名称>")
查看Hub上的数据卡以了解可用的分割。你可以在下面的文档中找到更多关于架构的信息。
BigBIO
包含对其他流行的英语生物医学基准中几乎所有数据集的支持。
任务类型 | 数据集 | BigBIO (我们的) | BLUE | BLURB | BoX | 需要DUA |
---|---|---|---|---|---|---|
命名实体识别 | BC2GM | ✓ |