Drug Combination Extraction (DCE) dataset

Name: Drug Combination Extraction (DCE) dataset
Creator: 艾伦人工智能研究所
Published: 2022-05-05 03:01:16
License: 暂无描述

arXiv2022-05-05 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/allenai/drug-combo-extraction

下载链接

链接失效反馈

官方服务：

资源简介：

Drug Combination Extraction (DCE)数据集是由艾伦人工智能研究所和卡内基梅隆大学等机构的研究人员共同创建，包含1634个专家标注的摘要，涉及2至15种药物。该数据集主要用于从科学文献中提取药物组合的有效性信息，特别关注药物组合的协同效应。数据集的创建过程涉及从PubMed抽样并使用特定的触发词进行筛选，以确保数据的多样性和平衡性。该数据集的应用领域主要集中在临床研究，帮助研究人员识别和验证复杂的药物治疗方案，特别是在癌症治疗领域。

Drug Combination Extraction (DCE) dataset was jointly developed by researchers from institutions including the Allen Institute for AI and Carnegie Mellon University. It contains 1,634 expert-annotated scientific abstracts involving 2 to 15 different drugs. This dataset is primarily designed to extract efficacy-related information of drug combinations from scholarly literature, with special emphasis on the synergistic effects of such combinations. The dataset construction process entails sampling from PubMed and filtering via specific trigger words to ensure the diversity and balance of the dataset. Its main application domain is clinical research, where it assists researchers in identifying and validating complex drug treatment regimens, particularly in the field of cancer therapy.

提供机构：

艾伦人工智能研究所

创建时间：

2022-05-05

搜集汇总

数据集介绍

构建方式

在药物组合疗法日益成为癌症、结核病等疾病标准治疗的背景下，Drug Combination Extraction (DCE) 数据集的构建采用了专家标注与远程监督相结合的策略。首先，研究团队从PubMed数据库中筛选出包含至少两种药物提及的句子，并通过触发词列表（如“combination”、“synergistic”）提升标注样本中药物组合的比例，以确保数据平衡。随后，七名具备生物医学工程背景的研究生使用Prodigy工具对1634篇摘要进行了手动标注，标注过程涵盖了药物组合的识别及其疗效分类（POS_COMB、OTHER_COMB、NO_COMB）。为确保标注质量，团队通过多次计算标注者间一致性（如部分匹配F1得分达88.9）并进行专家仲裁，最终形成了包含1362个训练实例和272个测试实例的数据集。

特点

DCE数据集在自然语言处理领域具有独特价值，其核心特点体现在多维度挑战性上。作为首个支持可变长度N元关系抽取的数据集，它突破了传统二元或固定元数关系的限制，能够处理从2到11种药物不等的组合关系。数据集中67%的关系标注需要依赖跨句语境推理，凸显了文档级语言理解的重要性。此外，所有关系参数均为药物实体，缺乏类型提示，增加了模型区分不同组合的难度。数据集还包含了丰富的语言现象，如协调歧义、数值推理和领域知识依赖，为模型提供了复杂的测试环境。这些特点共同推动了关系抽取技术向更灵活、更深层次语境理解的方向发展。

使用方法

该数据集主要用于训练和评估药物组合及其疗效的抽取模型。在使用时，每个实例由目标句子、句子中的药物提及及其上下文（如摘要或段落）组成。模型需要输出一组关系，每个关系包含参与药物的子集及其标签（POS_COMB或OTHER_COMB），未包含的子集则默认为NO_COMB。评估采用精确匹配和部分匹配两种设置，通过精确率、召回率和F1分数衡量性能，重点关注阳性组合（POS_COMB）的识别效果。研究人员可基于提供的基线架构（如改进的PURE模型）进行实验，利用领域自适应预训练（DAPT）提升模型表现，并通过贪婪启发式方法处理可变元数关系的预测。数据集已公开于Hugging Face平台，支持自然语言处理社区进一步探索文档级信息抽取和药物发现应用。

背景与挑战

背景概述

药物组合提取（DCE）数据集由艾伦人工智能研究所、卡内基梅隆大学及以色列理工学院等机构的研究团队于2022年共同构建，旨在应对组合疗法在癌症、结核病等复杂疾病治疗中的关键需求。该数据集聚焦于从生物医学文献中自动提取药物组合及其疗效信息，核心研究问题在于解决可变长度N元关系抽取的挑战，即识别文本中不同数量药物之间的协同或拮抗作用。作为首个支持变长关系抽取的专家标注数据集，DCE不仅推动了自然语言处理在生物医学领域的前沿探索，也为临床研究人员快速筛选有效治疗方案提供了重要数据基础。

当前挑战

DCE数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，药物组合疗效抽取需克服语言理解的多重障碍：首先，疗效证据常分散于跨句语境中，约67%的实例需依赖段落级推理；其次，药物实体类型单一缺乏语义提示，增加了关系判别的难度；此外，文本中常涉及协调歧义、数值比较及专业领域知识，要求模型具备深层语义推理能力。在构建过程中，研究团队需平衡数据覆盖与标注效率，通过触发词筛选与远程监督结合的方式优化样本分布，同时设计支持变长关系标注的流程，并采用部分匹配评估指标以应对组合关系的复杂性。

常用场景

经典使用场景

在生物医学信息抽取领域，药物组合提取数据集（DCE）为自然语言处理模型提供了识别科学文献中多药物协同作用的关键基准。该数据集通过专家标注的1600篇生物医学摘要，系统捕捉了药物组合的疗效信息，其独特之处在于首次引入了可变长度N元关系抽取任务。研究者利用该数据集训练模型，使其能够从复杂的文本语境中准确判别药物组合的存在及其疗效类别，为后续的临床决策支持系统奠定数据基础。

实际应用

在临床医学与药物研发实践中，DCE数据集为自动化治疗建议系统提供了关键支持。通过从海量科学文献中自动提取有效的药物组合及其疗效证据，该系统能够辅助医学研究人员快速识别潜在的协同治疗方案，尤其在癌症、结核病、疟疾等复杂疾病的组合疗法探索中具有显著价值。例如，在肿瘤治疗领域，模型可基于文献证据推荐与一线药物协同的候选组合，从而加速新治疗方案的发现与验证流程，提升临床决策的效率和科学性。

衍生相关工作

DCE数据集的发布促进了多项前沿研究工作的诞生。基于其提供的基准，研究者开发了适应可变元数关系抽取的改进模型架构，如对PURE框架的扩展，通过平均实体标记嵌入来处理高阶关系。同时，该数据集激发了针对文档级上下文建模的新方法探索，特别是在长距离依赖与跨句推理方面。此外，围绕药物组合提取任务，后续研究进一步深入探讨了领域自适应预训练、少样本泛化以及结合外部知识库的混合模型，持续推动生物医学文本挖掘与关系抽取技术的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集