bigbio/euadr

Name: bigbio/euadr
Creator: bigbio
Published: 2022-12-22 15:44:36
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/euadr

下载链接

链接失效反馈

官方服务：

资源简介：

EU-ADR数据集是一个用于训练和评估文本挖掘系统的语料库，特别针对命名实体识别（NER）和关系抽取（RE）任务。该数据集包含药物、疾病、基因及其相互关系的标注。标注过程首先由命名实体识别系统生成初步标注，然后由标注者通过基于Web的界面进行修订。对于药物-疾病、药物-靶点和靶点-疾病这三种关系，三位专家分别标注了100篇摘要。这些标注的关系将用于训练和评估文本挖掘软件，以从文本中捕捉这些关系。

The EU-ADR dataset is a corpus dedicated to training and evaluating text mining systems, with a particular focus on Named Entity Recognition (NER) and Relation Extraction (RE) tasks. This corpus contains annotations for drugs, diseases, genes, and their interrelationships. The annotation workflow begins with preliminary annotations generated by a named entity recognition system, which are then revised by annotators through a web-based interface. For the three types of relationships—drug-disease, drug-target, and target-disease—three experts each annotated 100 abstracts. These annotated relationships will be utilized to train and evaluate text mining software for extracting such relationships from textual data.

提供机构：

bigbio

原始信息汇总

数据集概述：EU-ADR

基本信息

语言: 英语
许可证: 未知
多语言性: 单语
任务:
- 命名实体识别 (NAMED_ENTITY_RECOGNITION)
- 关系抽取 (RELATION_EXTRACTION)

详细描述

主页: https://www.sciencedirect.com/science/article/pii/S1532046412000573
是否公开: 是
是否可在PubMed访问: 是

该数据集包含对药物、疾病、基因及其相互关系的标注。每种药物-疾病、药物-目标、目标-疾病关系由三位专家对100篇摘要进行标注。这些标注的关系将用于训练和评估文本挖掘软件，以捕捉文本中的这些关系。

引用信息

@article{VANMULLIGEN2012879, title = {The EU-ADR corpus: Annotated drugs, diseases, targets, and their relationships}, journal = {Journal of Biomedical Informatics}, volume = {45}, number = {5}, pages = {879-884}, year = {2012}, note = {Text Mining and Natural Language Processing in Pharmacogenomics}, issn = {1532-0464}, doi = {https://doi.org/10.1016/j.jbi.2012.04.004}, url = {https://www.sciencedirect.com/science/article/pii/S1532046412000573}, author = {Erik M. {van Mulligen} and Annie Fourrier-Reglat and David Gurwitz and Mariam Molokhia and Ainhoa Nieto and Gianluca Trifiro and Jan A. Kors and Laura I. Furlong}, keywords = {Text mining, Corpus development, Machine learning, Adverse drug reactions}, abstract = {Corpora with specific entities and relationships annotated are essential to train and evaluate text-mining systems that are developed to extract specific structured information from a large corpus. In this paper we describe an approach where a named-entity recognition system produces a first annotation and annotators revise this annotation using a web-based interface. The agreement figures achieved show that the inter-annotator agreement is much better than the agreement with the system provided annotations. The corpus has been annotated for drugs, disorders, genes and their inter-relationships. For each of the drug–disorder, drug–target, and target–disorder relations three experts have annotated a set of 100 abstracts. These annotated relationships will be used to train and evaluate text-mining software to capture these relationships in texts.} }

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，构建高质量的标注语料库对于开发文本挖掘系统至关重要。EU-ADR数据集的构建采用了一种半自动化的协同标注策略：首先利用命名实体识别系统对生物医学文献摘要进行初步标注，生成药物、疾病和基因等实体的初始标记；随后，专业标注人员通过基于网络的交互界面，对这些系统生成的标注结果进行人工审查与精细化修订。该过程确保了标注的一致性与准确性，最终形成了包含药物-疾病、药物-靶点以及靶点-疾病三类关系的标注集合，每类关系均由三位专家独立标注了100篇摘要，为后续的模型训练与评估提供了可靠基础。

特点

EU-ADR数据集在药物安全与药物基因组学研究中展现出独特价值，其核心特点在于聚焦于药物不良反应相关的实体与关系。该数据集精细标注了药物、疾病、基因三类关键实体，并专门捕捉了它们之间的相互作用关系，如药物与疾病的关联、药物与靶点的结合以及靶点与疾病的联系。这种多层次、结构化的标注体系，不仅支持命名实体识别任务，更能深入推动关系抽取技术的发展，为构建能够从海量文献中自动提取药物安全信息的文本挖掘工具提供了不可或缺的训练与测试资源。

使用方法

该数据集主要服务于生物医学文本挖掘领域的研究与实践。使用者可将其应用于命名实体识别模型的训练与评估，以提升系统对药物、疾病、基因等专业术语的识别精度。更重要的是，数据集内蕴含的丰富关系标注为关系抽取任务提供了直接支持，研究者可利用这些标注数据开发算法，自动从科学文献中抽取出药物-疾病-靶点之间的复杂网络关系。典型的使用流程包括数据加载、预处理、模型训练及性能验证，最终目标是构建能够自动化解析药物安全相关知识的计算工具。

背景与挑战

背景概述

在生物医学信息学领域，文本挖掘技术对于从海量文献中提取结构化知识至关重要。EU-ADR语料库于2012年由Erik M. van Mulligen等研究人员创建，其核心研究问题聚焦于药物不良反应的自动化识别与关系抽取。该数据集由多国研究机构合作构建，系统标注了药物、疾病、基因三类实体及其间的相互作用关系，旨在为药物安全监测提供数据支撑。作为早期专注于药物靶点与不良反应关系的标注资源，EU-ADR推动了生物医学关系抽取方法的发展，并为药物警戒研究提供了重要的基准数据。

当前挑战

该数据集致力于解决生物医学文本中药物、疾病、基因实体及其复杂关系的自动抽取挑战，其核心难点在于生物医学术语的多样性与关系表达的隐含性。在构建过程中，标注工作面临实体边界模糊与关系语义歧义的困扰，例如药物名称变体与疾病同义词的准确界定。采用先由命名实体识别系统预标注、再由专家人工修订的混合策略，虽提升了效率，但系统初始标注与人工标注的一致性较低，凸显了自动化工具在专业领域的局限性。此外，数据规模相对有限，覆盖的文献类型与关系类别仍有扩展空间。

常用场景

经典使用场景

在生物医学信息学领域，EU-ADR数据集作为标注药物、疾病、基因及其相互关系的权威语料库，其经典使用场景聚焦于训练和评估文本挖掘系统。该数据集通过专家标注的药物-疾病、药物-靶点、靶点-疾病关系，为自然语言处理模型提供了结构化信息抽取的基准测试平台，广泛应用于命名实体识别与关系抽取任务的模型开发与性能验证。

解决学术问题

EU-ADR数据集有效解决了生物医学文本挖掘中结构化信息抽取的标注稀缺性问题。通过提供高质量的药物、疾病、基因实体及其关系的专家标注，该数据集为学术界构建了可靠的评估基准，促进了机器学习模型在药物不良反应发现、基因-药物互作预测等关键研究方向的发展，显著提升了文本挖掘系统的准确性与可解释性。

衍生相关工作

围绕EU-ADR数据集，衍生出多项生物医学文本挖掘领域的经典研究工作。这些工作包括基于深度学习的实体关系联合抽取模型、跨语料库的迁移学习框架，以及药物不良反应信号检测算法。这些研究不仅深化了对生物医学实体语义关系的理解，还推动了药物发现与安全监测领域自动化分析技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集