DDI corpus

github2023-01-05 更新2024-05-31 收录

下载链接：

https://github.com/StevenZhaoo/R-BERT-DDI

下载链接

链接失效反馈

官方服务：

资源简介：

DDI corpus是一个语义标注的文档集合，专门描述来自DrugBank数据库和MedLine摘要中的药物-药物相互作用。该数据集用于训练信息提取系统，以从生物医学文献中提取相互作用信息。

The DDI corpus is a semantically annotated collection of documents specifically detailing drug-drug interactions sourced from the DrugBank database and MedLine abstracts. This dataset is utilized to train information extraction systems for the purpose of extracting interaction information from biomedical literature.

创建时间：

2021-09-24

原始信息汇总

数据集概述

数据集名称

Drug-Drug Interaction (DDI)

数据集内容

任务类型：包括两个部分，即命名实体识别（NER）和药物-药物相互作用（DDI），主要关注DDI。
数据来源：DDI语料库，源自DrugBank数据库和MedLine中关于药物-药物相互作用的摘要。
数据规模：
- DrugBank训练集：包含572个文档和5675个句子。
- 实体类型统计：
  - 药物：8197（DrugBank），1228（MedLine）
  - 品牌：1423（DrugBank），14（MedLine）
  - 组：3206（DrugBank），193（MedLine）
  - 药物_n：103（DrugBank），401（MedLine）
  - DDI：178（DrugBank），10（MedLine）
  - 建议：819（DrugBank），8（MedLine）
  - 效果：1548（DrugBank），152（MedLine）
  - 机制：1260（DrugBank），8162（MedLine）

数据集结构

XML格式：数据集以XML格式存储，包含以下元素：
- <document>：文档根元素，包含唯一ID。
- <sentence>：每个句子元素，包含唯一ID和文本内容。
- <entity>：实体元素，描述实体的类型、位置和文本。
- <ddi>：DDI元素，描述药物-药物相互作用的类型和涉及的实体。

数据集使用许可

使用DDI语料库需遵守DDI许可证的条款。

数据集示例

XML示例：展示了一个包含多个实体和DDI信息的句子。

数据集方法论

模型：基于R-BERT模型进行改进，包括数据增强和标记机制。
训练与评估：使用Python脚本进行模型训练和评估。

数据集结果

评估指标：包括精确度（p）、召回率（r）和F1分数（f）。
评估结果：不同设置下的性能指标，如使用标记和不使用标记的比较。

结论

DDI数据集是一个用于训练信息抽取系统的语义标注语料库，特别关注药物-药物相互作用。数据集提供了详细的实体和相互作用信息，适用于开发和评估相关模型。

搜集汇总

数据集介绍

构建方式

DDI corpus的构建基于DrugBank数据库和MedLine文摘，专注于药物-药物相互作用（DDI）的语义标注。该数据集通过从生物医学文献中提取相关文档和句子，进行详细的实体识别和相互作用标注。具体而言，数据集包括572个文档和5675个句子，涵盖了多种药物类型及其相互作用类型，如药物、品牌、组别等。每个句子通过XML格式进行标注，包含实体和相互作用的详细信息，如实体的文本、类型及其在句子中的位置。

特点

DDI corpus的主要特点在于其高度结构化和详细的语义标注，适用于信息提取系统的训练。数据集不仅标注了药物实体，还详细记录了药物之间的相互作用类型，如建议、效果、机制等。此外，数据集通过数据增强和标记机制，解决了长尾关系问题，确保了各类标签的均衡分布，从而提高了模型的泛化能力。

使用方法

使用DDI corpus进行模型训练和评估时，用户需遵循特定的数据处理流程。首先，通过Python脚本解析XML格式的数据，提取句子、实体及其相互作用信息。随后，利用BERT模型进行特征提取，并通过全连接层进行分类。数据增强和标记机制的应用进一步优化了模型的性能。最终，通过执行`python main.py --do_train --do_eval`命令，可以进行模型的训练和评估，获取精确度、召回率和F1分数等关键性能指标。

背景与挑战

背景概述

药物-药物相互作用（DDI）语料库是由StevenChaoo创建的一个语义注释的文档集合，主要来源于DrugBank数据库和MedLine关于药物-药物相互作用的摘要。该语料库旨在训练信息提取系统，以从生物医学文献中提取药物相互作用。DDI语料库包含572个文档和5675个句子，涵盖了多种药物类型及其相互作用类型，如药物、品牌、组别等。该语料库的创建为药物相互作用研究提供了宝贵的资源，推动了相关领域的发展。

当前挑战

DDI语料库在构建过程中面临的主要挑战包括数据的不平衡分布，尤其是长尾关系问题，导致某些类型的相互作用数据较少。此外，语料库的注释过程复杂，需要精确识别和标记药物实体及其相互作用，这对注释的准确性和一致性提出了高要求。在应用方面，如何有效地利用该语料库进行模型训练，以提高药物相互作用预测的准确性和覆盖率，也是一个重要的研究方向。

常用场景

经典使用场景

在药物相互作用研究领域，DDI corpus数据集被广泛应用于训练信息提取系统，特别是用于从生物医学文献中识别和分类药物-药物相互作用（DDI）。该数据集通过提供详细的语义标注，帮助研究人员开发和验证能够自动识别药物相互作用的算法，从而提高药物安全性和有效性评估的准确性。

实际应用

在实际应用中，DDI corpus数据集被制药公司和医疗研究机构广泛用于开发和验证药物相互作用检测系统。这些系统能够自动分析和识别潜在的药物相互作用，帮助医生和药剂师在临床实践中做出更安全的药物选择和剂量调整，从而提高患者的治疗效果和安全性。

衍生相关工作

基于DDI corpus数据集，许多相关研究工作得以开展，包括改进的药物相互作用检测算法和模型。例如，研究人员通过引入R-BERT模型，结合实体信息丰富预训练语言模型，显著提高了药物相互作用分类的准确性。此外，数据增强和标记机制的引入也为解决数据不平衡问题提供了新的思路，进一步推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集