ncats/EpiSet4NER-v1

Name: ncats/EpiSet4NER-v1
Creator: ncats
Published: 2022-09-20 14:08:28
License: 暂无描述

Hugging Face2022-09-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ncats/EpiSet4NER-v1

下载链接

链接失效反馈

官方服务：

资源简介：

EpiSet4NER是一个用于流行病学实体识别的青铜标准数据集，由美国国家转化科学推进中心（NCATS）的遗传与罕见疾病信息中心（GARD）创建。该数据集通过spaCy NER和基于规则的方法进行程序化标注，测试集经过3名NCATS研究人员和一名GARD专家手动校正。数据集包含地点、流行病学类型（如“患病率”、“年发病率”、“估计发生率”）和流行病学率（如“1.7每1,000,000活产”、“2.1:1.000.000”、“五百万分之一”、“0.03%”）的识别。数据集用于训练基于BioBERT的EpiExtract4GARD模型，该模型经过微调用于命名实体识别（NER）。

EpiSet4NER is a bronze-standard dataset for epidemiological entity recognition. It was developed by the Genetic and Rare Diseases Information Center (GARD) of the U.S. National Center for Advancing Translational Sciences (NCATS). The dataset was programmatically annotated using spaCy NER and rule-based methods, and its test set was manually corrected by three NCATS researchers and one GARD expert. It supports the recognition of three entity types: locations, epidemiological types (e.g., "prevalence", "annual incidence", "estimated incidence"), and epidemiological rates (e.g., "1.7 per 1,000,000 live births", "2.1 per 1,000,000", "one in five million", "0.03%"). This dataset is used to train the BioBERT-based EpiExtract4GARD model, which has been fine-tuned for named entity recognition (NER).

提供机构：

ncats

原始信息汇总

数据集概述

名称： EpiSet4NER
创建者： 遗传与罕见疾病信息中心（GARD），国家转化科学推进中心（NCATS）
目的： 用于流行病学实体识别，包括地点、流行病学类型和流行病学率
数据集大小： 100K<n<1M
语言： 英语
许可证： 其他
多语言性： 单语
任务类别： 结构预测
任务ID： 命名实体识别

数据集结构

数据实例：
每个实例包含以下字段：

id: 字符串，表示句子编号。
tokens: 字符串列表。
ner_tags: 分类标签列表，可能值包括 O (0), B-LOC (1), I-LOC (2), B-EPI (3), I-EPI (4), B-STAT (5), I-STAT (6)。

数据分割：

名称	训练	验证	测试
EpiSet 摘要数量	456	114	50
EpiSet 令牌数量	117888	31262	13910

数据集创建

注释过程：
使用spaCy NER和基于规则的方法进行程序化标注。测试集由3名NCATS研究人员和1名GARD馆员（遗传和罕见疾病专家）手动校正。

评估指标：

评估级别	实体	精确度	召回率	F1
实体级别	总体	0.559	0.662	0.606
	位置	0.597	0.661	0.627
	流行病学类型	0.854	0.911	0.882
	流行病学率	0.175	0.255	0.207
令牌级别	总体	0.805	0.710	0.755
	位置	0.868	0.713	0.783
	流行病学类型	0.908	0.908	0.908
	流行病学率	0.739	0.645	0.689

使用数据集的考虑

社会影响：
帮助25-30百万美国罕见疾病患者，对Orphanet或CDC的研究人员/馆员也有用。

偏见和限制：

源文件中的罕见疾病同义词错误可能导致无关摘要被包含。
使用EBI API收集摘要，可能存在偏见。
LSTM RNN流行病学分类器用于筛选摘要，可能存在假阳性和假阴性。
spaCy的令牌化可能对当前和未来模型构成限制。
程序化标注的精确度较低，可能是BioBERT模型训练的主要限制。

搜集汇总

数据集介绍

构建方式

在流行病学信息抽取领域，构建高质量的标注数据集对于训练自动化模型至关重要。EpiSet4NER数据集的构建采用了弱监督与程序化标注相结合的方法，其源数据来自PubMed数据库中约7699篇罕见疾病相关摘要，通过一个长短期记忆循环神经网络流行病学分类器筛选出620篇流行病学摘要。标注过程主要利用spaCy命名实体识别工具与基于规则的方法进行程序化标注，自动识别地理位置、流行病学类型及流行病学率三类实体。为确保数据质量，测试集部分由三位NCATS研究员与一位罕见疾病专家进行了人工校正，形成了青铜标准数据集，有效平衡了标注效率与准确性。

使用方法

该数据集主要用于命名实体识别任务的模型训练与评估，尤其适用于生物医学文本挖掘领域。使用者可通过HuggingFace平台直接加载数据集，其数据字段包括文本标识、词汇序列及对应的实体标注序列，标注体系采用BIO格式。研究人员可利用该数据集对预训练模型如BioBERT进行微调，以提升对流行病学信息的抽取能力。鉴于数据集存在程序化标注的固有噪声，建议在模型开发过程中重点关注测试集上的性能，并考虑结合领域知识进行后处理，以增强模型在实际应用中的鲁棒性与泛化能力。

背景与挑战

背景概述

在生物医学信息学领域，流行病学数据的自动化抽取对于罕见病研究具有关键意义。EpiSet4NER数据集由美国国立卫生研究院下属的国家转化科学推进中心（NCATS）及其遗传与罕见疾病信息中心（GARD）于近年创建，旨在通过命名实体识别技术，从科学文献中自动提取地理位置、流行病学类型及发病率等关键信息。该数据集采用弱监督学习方法构建，通过程序化标注与专家验证相结合的方式，为训练如EpiExtract4GARD等基于BioBERT的模型提供了重要基础，显著提升了罕见病流行病学信息整理的效率，对患者关怀、科研资助及政策制定产生了深远影响。

当前挑战

该数据集致力于解决流行病学信息抽取中的命名实体识别挑战，特别是针对罕见病文献中复杂多变的数值表达与专业术语的精准标注。在构建过程中，面临多重困难：程序化标注的精度有限，尤其在流行病学比率的识别上表现较弱，F1值仅为0.207；数据源依赖EBI API，可能引入检索偏差，且初始疾病同义词文件存在错误，导致无关摘要混入；此外，标注过程高度依赖专家知识，测试集的验证即使对非专业研究人员也极为困难，凸显了领域专业知识在数据质量控制中的不可或缺性。

常用场景

经典使用场景

在流行病学信息抽取领域，EpiSet4NER数据集为命名实体识别任务提供了关键支持。该数据集专注于从罕见疾病相关的医学文献中，自动识别地理位置、流行病学类型以及流行病学率等实体。通过弱监督学习方法构建，它能够有效训练模型从非结构化的生物医学文本中提取结构化信息，为后续的流行病学数据分析和知识发现奠定基础。

解决学术问题

该数据集主要解决了生物医学自然语言处理中流行病学实体识别的学术挑战。传统方法在提取复杂流行病学数据时面临精度不足和标注成本高昂的问题，EpiSet4NER通过程序化标注与专家验证相结合的方式，为模型训练提供了大规模且具有一定质量的标注数据。这不仅推动了弱监督学习在生物医学领域的应用，还为罕见疾病流行病学研究提供了自动化工具，促进了跨学科研究的融合。

实际应用

在实际应用中，EpiSet4NER数据集被用于构建自动化流行病学信息抽取系统，例如辅助美国国家转化科学推进中心的罕见疾病信息中心进行数据整理。这些系统能够从海量医学文献中快速提取疾病发病率、流行率等关键指标，为患者、研究人员和政策制定者提供及时的数据支持。此外，该数据集还可应用于公共卫生监测、疾病负担评估以及医疗资源分配等现实场景，提升公共卫生决策的科学性和效率。

数据集最近研究