NCBI Disease Corpus

github2020-04-22 更新2024-05-31 收录

下载链接：

https://github.com/isabelline/BioNLPDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含793篇PubMed摘要，6,892个疾病提及，790个独特的疾病概念。使用医学主题词（MeSH）和在线孟德尔遗传在人类（OMIM）进行标注。91%的提及映射到单一疾病概念，分为训练、开发和测试集。

This dataset comprises 793 PubMed abstracts, encompassing 6,892 disease mentions and 790 unique disease concepts. Annotations were performed using Medical Subject Headings (MeSH) and Online Mendelian Inheritance in Man (OMIM). 91% of the mentions are mapped to a single disease concept, and the dataset is divided into training, development, and test sets.

创建时间：

2019-12-22

原始信息汇总

数据集概述

命名实体识别

NCBI Disease Corpus
- 包含793篇PubMed摘要
- 6,892个疾病提及
- 790个唯一疾病概念
- 使用Medical Subject Headings (MeSH)和Online Mendelian Inheritance in Man (OMIM)
- 91%的提及映射到单个疾病概念
- 分为训练、开发和测试集
tmVAR
- 包含500篇PubMed文章，手动标注了各种类型的突变提及
BC5CDR
- 包含1500篇PubMed文章
- 4409个标注化学物质
- 5818个疾病
- 3116个化学-疾病交互
CDT
- 包含18,410篇摘要
- 33,224个CID关系
- 从CTD-Pfizer合作中提取的文档级注释

关系提取

GAD
- 基因-疾病关联数据库
- 包含复杂疾病的遗传关联研究摘要数据
EU-ADR
- 标注了药物、疾病、基因及其相互关系
- 每种药物-疾病、药物-目标、目标-疾病关系由三位专家标注100篇摘要
ChemProt
- 化学-蛋白质关系
PPI
- 蛋白质-蛋白质相互作用
- 基于BioInfer的二元化
DDIExtraction2013
- 药物-药物交互
ADE
- 药物-不良反应
- 支持从医疗案例报告中自动提取药物相关不良反应的基准语料库
TAC2017
- 关注药物-药物交互的提取
SMM4H
- 第四届社交媒体挖掘健康共享任务
ADRMine
- 从推文和论坛帖子中提取不良药物反应的语料库

大规模PubMed语料库

PubMed Phrases
- 包含705,915个PubMed短语
- 有助于信息检索和人类理解

搜集汇总

数据集介绍

构建方式

NCBI Disease Corpus数据集的构建，依托于PubMed抽象，涵盖793篇文章，涉及6,892个疾病提及，790个独特疾病概念。该数据集利用Medical Subject Headings (MeSH)和Online Mendelian Inheritance in Man (OMIM)两种医学知识体系进行疾病概念映射，将提及分为训练集、开发集和测试集，以适应机器学习模型的训练和评估。

特点

该数据集的特点在于，91%的疾病提及能够映射到单一疾病概念，具有较高的标注一致性。此外，数据集的构建基于权威的PubMed资源，保证了数据的可靠性和准确性。其结构化的数据格式也便于进行后续的数据处理和分析。

使用方法

使用NCBI Disease Corpus数据集时，用户可以根据自己的需求选择相应的训练集、开发集或测试集。数据集以文本形式存储，可以通过常规的数据处理工具进行读取和处理。针对不同的实体识别任务，用户需要根据数据集的标注规范，进行相应的预处理和特征提取，以输入到机器学习模型中进行训练或预测。

背景与挑战

背景概述

NCBI Disease Corpus数据集是在生物医学自然语言处理领域具有重要影响力的资源，由美国国立生物技术信息中心（NCBI）提供，创建于21世纪初。该数据集的构建旨在推动疾病命名实体识别的研究，包含了793篇PubMed摘要，涉及6892个疾病提及和790个独特的疾病概念，其中91%的提及映射到单一疾病概念。数据集根据MeSH和OMIM标准进行标注，并分为训练集、开发集和测试集，为相关研究提供了宝贵的文本资源。

当前挑战

在构建NCBI Disease Corpus数据集的过程中，研究人员面临了诸多挑战。首先，生物医学文本的复杂性为疾病实体识别带来了困难，涉及到的专业术语和多样的表达方式要求高精度和高召回率的标注。其次，构建过程中需要确保标注的一致性和准确性，这要求专业的医学知识和自然语言处理技术的结合。此外，数据集的规模和多样性也为数据集的维护和更新提出了挑战。在研究领域问题方面，该数据集解决了如何从生物医学文献中有效识别和分类疾病实体的难题，但同时也面临着如何进一步提高实体识别的准确性和扩展到更多疾病类型等挑战。

常用场景

经典使用场景

在生物医学文本挖掘领域，NCBI Disease Corpus作为疾病命名实体识别的数据集，其经典使用场景在于训练机器学习模型以识别和提取文本中的疾病实体。该数据集包含了793篇PubMed摘要，以及标注详尽的疾病提及，为模型训练和评估提供了坚实基础。

解决学术问题

NCBI Disease Corpus解决了学术研究中疾病实体识别准确性的问题，其高质量的数据标注使得相关模型能够有效区分疾病提及与其它类型实体，进而提高了生物医学文献处理的自动化水平，对于疾病关联研究和生物信息学领域的知识发现具有重要意义。

衍生相关工作

基于NCBI Disease Corpus，研究者们衍生出了一系列相关工作，如疾病实体归一化、化学-疾病交互关系提取等任务的研究，推动了生物医学文本挖掘技术的进步，为后续的学术探索和实际应用奠定了基础。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集