five

ncbi/ncbi_disease

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ncbi/ncbi_disease
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为NCBI Disease,包含793篇PubMed摘要的疾病名称和概念注释,旨在为生物医学自然语言处理社区提供高质量的研究资源。数据集的结构包括tokens、ner_tags和id字段,数据分为训练集、验证集和测试集。数据集的创建过程涉及手动注释和共识达成,以确保注释的一致性和准确性。数据集的使用有助于开发高效的生物医学信息提取工具。

该数据集名为NCBI Disease,包含793篇PubMed摘要的疾病名称和概念注释,旨在为生物医学自然语言处理社区提供高质量的研究资源。数据集的结构包括tokens、ner_tags和id字段,数据分为训练集、验证集和测试集。数据集的创建过程涉及手动注释和共识达成,以确保注释的一致性和准确性。数据集的使用有助于开发高效的生物医学信息提取工具。
提供机构:
ncbi
原始信息汇总

数据集概述

数据集名称: NCBI Disease

数据集简介: 该数据集包含NCBI疾病语料库中的疾病名称和概念注释,是一个包含793篇PubMed摘要的完全注释集合,旨在为生物医学自然语言处理社区提供研究资源。

语言: 英语 (en)

许可证: 未知

多语言性: 单语

数据集大小: 1K<n<10K

源数据集: 原始数据

任务类别: 词元分类

任务ID: 命名实体识别

数据集信息:

  • 特征:

    • id: 字符串类型,句子标识符。
    • tokens: 字符串序列,构成句子的词元数组。
    • ner_tags: 类标签序列,其中0表示未提及疾病,1表示疾病的首个词元,2表示后续的疾病词元。
  • 配置名称: ncbi_disease

  • 数据分割:

    • 训练集: 5433个实例,2355516字节。
    • 验证集: 924个实例,413900字节。
    • 测试集: 941个实例,422842字节。
  • 下载大小: 1546492字节

  • 数据集大小: 3192258字节

训练-评估指标:

  • 任务: 词元分类
  • 任务ID: multi_class_classification
  • 分割:
    • 训练分割: train
    • 评估分割: test
  • 列映射:
    • tokens: 文本
    • ner_tags: 目标
  • 指标:
    • 准确率 (Accuracy)
    • F1 宏 (F1 macro)
    • F1 微 (F1 micro)
    • F1 加权 (F1 weighted)
    • 精确率 宏 (Precision macro)
    • 精确率 微 (Precision micro)
    • 精确率 加权 (Precision weighted)
    • 召回率 宏 (Recall macro)
    • 召回率 微 (Recall micro)
    • 召回率 加权 (Recall weighted)
搜集汇总
数据集介绍
main_image_url
构建方式
NCBI Disease数据集的构建,是基于PubMed文摘的抽象提取,涵盖了793篇完全在提及和概念层面进行注释的文摘,旨在为生物医学自然语言处理领域提供一项研究资源。该数据集的构建过程涉及两个阶段的注释,首先由14名具有生物信息学研究背景的注释者随机配对进行手动注释,并使用PubTator工具进行预注释辅助。注释后,通过对比其余语料库的注释结果来确保整体一致性。
特点
该数据集的特点在于其高质量的金标准注释,这有助于推动疾病名称识别和归一化研究的最新进展。数据集采用单语种英文构建,包含训练、验证和测试三个子集,总计6308个实例。每个实例由一组标记的tokens和ner_tags组成,其中ner_tags采用BIO标记方案,以区分疾病名称的提及和概念。此外,数据集在公开领域内可自由使用,无需版权限制。
使用方法
使用NCBI Disease数据集时,用户可以依据其提供的训练、验证和测试 splits进行模型训练和评估。数据集的字段包括句子标识符、组成句子的token数组和相应的ner_tag标签数组。用户需要根据任务需求,将这些字段映射到相应的文本和目标标签,以进行命名实体识别等任务。数据集的下载和使用需遵循其提供的公共领域通知,并在任何基于该数据集的工作或产品中引用原作者。
背景与挑战
背景概述
NCBI Disease数据集,由美国国立生物技术信息中心(NCBI)的生物医学自然语言处理社区构建,旨在推动疾病名称识别和标准化研究的发展。该数据集包含了793篇PubMed摘要,每篇摘要均经过全面的手工标注,以识别疾病提及及其对应的Medical Subject Headings (MeSH®)或Online Mendelian Inheritance in Man (OMIM®)概念。NCBI Disease数据集的创建时间为2014年,主要研究人员包括Rezarta Islamaj Doğan、Robert Leaman和Zhiyong Lu。该数据集对生物医学文本挖掘领域产生了显著影响,为疾病概念的自动化检测工具的开发提供了基础。
当前挑战
在构建NCBI Disease数据集的过程中,研究人员面临了多项挑战。首先,确保标注质量的一致性和准确性是一大挑战,为此采用了多轮标注和一致性检查。其次,数据集中疾病概念的多重性和复杂性使得标注过程变得复杂。此外,某些疾病提及难以使用标准分类进行表示,这要求在标注过程中进行特殊处理。在数据集应用方面,挑战包括如何准确处理疾病名称的缩写和字符串匹配等问题。
常用场景
经典使用场景
在生物医学自然语言处理领域中,NCBI Disease数据集的经典使用场景在于为疾病名称识别和概念规范化任务提供高质量的标注数据。研究者们利用该数据集对模型进行训练,以期提高模型在识别生物医学文本中疾病名称的能力,从而促进生物医学信息的有效提取和分析。
解决学术问题
NCBI Disease数据集解决了学术研究中疾病名称识别准确性不足的问题。通过提供专家生成的标注数据,该数据集帮助研究者开发出更精确的疾病命名实体识别模型,进而提升生物医学文本挖掘的效率和质量。此外,它还促进了概念规范化研究,使得不同来源的生物医学信息能够被统一标准化,便于整合和应用。
衍生相关工作
基于NCBI Disease数据集,衍生出了众多相关工作,包括疾病命名实体的识别、消歧、关系抽取等研究。这些工作不仅涉及基础的模型研究和算法改进,还包括构建在疾病命名实体识别基础上的高级应用,如疾病知识图谱的构建和生物医学文本的语义解析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作