DevWithKaiju/biore-benchmark
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/DevWithKaiju/biore-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: chemprot-b
features:
- name: id
dtype: string
- name: sentence
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 4613472
num_examples: 16388
- name: validation
num_bytes: 2959966
num_examples: 10322
- name: test
num_bytes: 4400462
num_examples: 14372
download_size: 2259620
dataset_size: 11973900
- config_name: chemprot-r
features:
- name: id
dtype: string
- name: sentence
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 4363176
num_examples: 16388
- name: validation
num_bytes: 2804601
num_examples: 10322
- name: test
num_bytes: 4170513
num_examples: 14372
download_size: 2151193
dataset_size: 11338290
- config_name: ddi-b
features:
- name: id
dtype: string
- name: sentence
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 10037090
num_examples: 25252
- name: validation
num_bytes: 719586
num_examples: 2493
- name: test
num_bytes: 1940583
num_examples: 5709
download_size: 1679377
dataset_size: 12697259
- config_name: ddi-r
features:
- name: id
dtype: string
- name: sentence
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 9341332
num_examples: 25252
- name: validation
num_bytes: 652814
num_examples: 2493
- name: test
num_bytes: 1778303
num_examples: 5709
download_size: 1550919
dataset_size: 11772449
- config_name: drugprot-b
features:
- name: id
dtype: string
- name: sentence
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 18767813
num_examples: 64776
- name: validation
num_bytes: 3798078
num_examples: 13455
- name: test
num_bytes: 62262857
num_examples: 223949
download_size: 15771077
dataset_size: 84828748
- config_name: drugprot-r
features:
- name: id
dtype: string
- name: sentence
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 17668848
num_examples: 64776
- name: validation
num_bytes: 3572058
num_examples: 13455
- name: test
num_bytes: 57909336
num_examples: 223949
download_size: 14641995
dataset_size: 79150242
configs:
- config_name: chemprot-b
data_files:
- split: train
path: chemprot-b/train-*
- split: validation
path: chemprot-b/validation-*
- split: test
path: chemprot-b/test-*
- config_name: chemprot-r
data_files:
- split: train
path: chemprot-r/train-*
- split: validation
path: chemprot-r/validation-*
- split: test
path: chemprot-r/test-*
- config_name: ddi-b
data_files:
- split: train
path: ddi-b/train-*
- split: validation
path: ddi-b/validation-*
- split: test
path: ddi-b/test-*
- config_name: ddi-r
data_files:
- split: train
path: ddi-r/train-*
- split: validation
path: ddi-r/validation-*
- split: test
path: ddi-r/test-*
- config_name: drugprot-b
data_files:
- split: train
path: drugprot-b/train-*
- split: validation
path: drugprot-b/validation-*
- split: test
path: drugprot-b/test-*
- config_name: drugprot-r
data_files:
- split: train
path: drugprot-r/train-*
- split: validation
path: drugprot-r/validation-*
- split: test
path: drugprot-r/test-*
---
提供机构:
DevWithKaiju
搜集汇总
数据集介绍

构建方式
在生物医学关系抽取领域,biore-benchmark数据集通过整合多个权威子集构建而成,其核心来源于ChemProt、DDI和DrugProt等知名生物医学文本语料。每个子集均经过严格的预处理流程,从原始文献中提取句子并标注实体间的关系类型,形成结构化数据。构建过程中,数据被划分为训练集、验证集和测试集,确保模型评估的可靠性与泛化能力,为生物医学自然语言处理任务提供了标准化基准。
使用方法
研究人员可通过HuggingFace平台直接加载数据集,利用其预定义的配置名称访问特定子集,如chemprot-b或ddi-r。数据以标准分割形式提供,用户可分别调用训练、验证和测试部分进行模型训练、调优与评估。该数据集适用于关系抽取、文本分类等自然语言处理任务,能够为生物医学信息提取研究提供高效、可复现的实验基础。
背景与挑战
背景概述
BioRE-benchmark 作为生物医学关系抽取领域的重要评测基准,由研究机构于近年构建,旨在系统评估自然语言处理模型在复杂生物医学文本中识别实体间语义关联的能力。该数据集整合了 ChemProt、DDI 和 DrugProt 等多个子任务,覆盖化学物质-蛋白质相互作用、药物-药物相互作用及药物-蛋白质关系等关键研究方向,为生物医学信息抽取提供了标准化的实验平台。其创建推动了生物医学文本挖掘技术的发展,助力药物发现、精准医疗等应用领域的知识自动化构建,成为学术界与工业界广泛采纳的核心资源之一。
当前挑战
BioRE-benchmark 所针对的生物医学关系抽取任务面临多重挑战:生物医学文本蕴含高度专业术语与复杂句式,模型需克服领域特定语义歧义与句法多样性;同时,数据标注依赖专家知识,标注一致性难以保障,且标注成本高昂。在数据集构建过程中,挑战集中于多源异构数据的整合与标准化,例如不同子任务间的标注体系差异需协调统一;此外,生物医学文献的快速增长与知识更新,要求数据集具备良好的可扩展性与时效性,以持续反映前沿科学发现。
常用场景
经典使用场景
在生物医学文本挖掘领域,biore-benchmark数据集以其涵盖化学物质-蛋白质相互作用(ChemProt)、药物-药物相互作用(DDI)及药物-蛋白质关系(DrugProt)的丰富标注,成为评估关系抽取模型性能的经典基准。研究者通常利用该数据集训练和验证深度学习模型,如基于Transformer的架构,以自动识别科学文献中实体间的复杂语义关联,推动生物医学信息抽取技术的进步。
解决学术问题
该数据集有效解决了生物医学关系抽取中标注数据稀缺、领域术语复杂及关系类型多样化的核心挑战。通过提供大规模、高质量的人工标注语料,它支持模型学习细粒度的语义模式,促进了零样本或少样本迁移学习方法的探索,并为评估模型在跨领域泛化能力方面设立了标准,从而加速了自然语言处理技术在生物医学领域的应用研究。
实际应用
在实际应用中,biore-benchmark数据集支撑了药物发现、临床决策支持系统和生物医学知识图谱构建等关键场景。例如,通过自动提取药物与靶点蛋白的相互作用信息,研究人员能够快速筛选潜在药物候选物,优化药物研发流程;同时,该数据也有助于整合分散的医学文献知识,为精准医疗和个性化治疗提供数据基础。
数据集最近研究
最新研究方向
在生物医学关系抽取领域,biore-benchmark数据集作为涵盖ChemProt、DDI和DrugProt等多个关键任务的标准化评估平台,正推动着前沿研究的深入发展。当前研究聚焦于利用预训练语言模型如BERT和BioBERT,结合少样本学习与迁移学习策略,以提升模型在复杂生物医学文本中的关系识别能力。随着精准医疗和药物发现需求的增长,该数据集促进了跨任务知识迁移和多模态信息融合的探索,为自动化文献挖掘和临床决策支持系统提供了坚实的数据基础,显著加速了生物医学信息学向实用化迈进的步伐。
以上内容由遇见数据集搜集并总结生成



