HUMADEX/english_ner_dataset

Name: HUMADEX/english_ner_dataset
Creator: HUMADEX
Published: 2025-04-16 09:17:15
License: 暂无描述

Hugging Face2025-04-16 更新2025-04-26 收录

下载链接：

https://hf-mirror.com/datasets/HUMADEX/english_ner_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个英文医学领域的命名实体识别数据集，包含疾病、症状、医疗条件，诊断测试和治疗等信息。数据集由两个英文医学文本数据集合并而成，经过数据清洗、去标点、小写转换等预处理步骤，并使用Stanza的i2b2 Clinical Model进行标注。数据集还通过句子重排和实体提取等数据增强技术增加了多样性和鲁棒性。

This is an English Named Entity Recognition dataset focusing on the medical domain, containing information about diseases, symptoms, medical conditions, diagnostic tests, and treatments. The dataset is created by merging two English medical text datasets, and has undergone preprocessing steps including data cleaning, punctuation removal, and conversion to lowercase, followed by annotation using Stanzas i2b2 Clinical Model. The datasets diversity and robustness are enhanced through data augmentation techniques such as sentence reordering and entity extraction.

提供机构：

HUMADEX

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，构建高质量标注数据集是推动症状提取研究的关键。本数据集通过整合两个英文医学文本源，即Kabatubare/autotrain-data-1w6s-u4vt-i7yo与s200862/medical_qa_meds，形成多样化的语料库。随后执行了系统的数据清洗流程，移除对话标记、换行符等无关字符，并统一进行小写转换与标点去除，以确保文本格式的规范与一致性。预处理后的文本利用Stanza的i2b2临床模型进行自动化标注，识别问题、检测与治疗三类实体，并采用BIOES编码体系。为进一步增强数据多样性，实施了句子重排与实体提取等数据增强策略，从而构建出适用于低资源场景的弱监督命名实体识别数据集。

特点

该数据集聚焦于医学症状提取任务，其核心特征体现在实体标注的深度与广度上。标注体系基于临床领域权威的i2b2模型，精准划分了问题、检测与治疗三大实体类别，并采用细粒度的BIOES标签编码，支持复杂实体边界的识别。数据规模介于十万至百万级别，涵盖了丰富的医学对话与问答文本，确保了实体类型的多样性与上下文语境的真实性。通过数据增强技术，如句子结构重组与实体密集句生成，有效提升了数据集的鲁棒性，使其能够更好地服务于跨语言迁移与低资源环境下的模型训练需求。

使用方法

该数据集主要应用于医疗命名实体识别模型的训练与评估。研究人员可直接加载预处理后的文本与对应标签序列，利用如Hugging Face Transformers等框架构建序列标注模型。在模型训练阶段，建议采用交叉验证策略以评估其在临床实体抽取上的泛化性能。鉴于其弱监督与增强特性，该数据集亦适合作为预训练数据源，用于提升模型在症状识别等下游任务的迁移学习能力。使用时应遵循相关许可协议，并引用配套学术文献以支持后续研究。

背景与挑战

背景概述

在医疗信息学领域，临床文本中症状、诊断与治疗等关键实体的自动识别，是构建智能诊疗系统的基础。HUMADEX研究团队于2025年联合发布了English NER数据集，该数据集依托欧洲联盟地平线计划SMILE项目及BosomShield项目的资助，由Izidor Mlakar、Rigon Sallauka等学者主导构建。其核心研究聚焦于通过弱监督方法，从低资源语言的医疗文本中提取症状实体，以推动多语言医疗命名实体识别技术的发展，并为临床决策支持系统提供高质量标注数据，对提升医疗自然语言处理的泛化能力具有显著影响力。

当前挑战

该数据集致力于解决医疗命名实体识别任务中的领域挑战，特别是针对症状提取在低资源语言环境下的泛化难题。由于临床文本表述多样且专业术语密集，准确区分问题、检查与治疗实体需要模型具备深度的领域知识。在构建过程中，团队面临数据集成与预处理的复杂性，需融合异构的医疗问答数据集，并通过清洗、去标点及统一大小写等操作确保数据质量。此外，依赖Stanza的i2b2临床模型进行自动标注，虽提升了效率，但可能引入模型偏差，且数据增强策略如句子重组与实体提取，需平衡语义完整性与多样性之间的微妙关系。

常用场景

经典使用场景

在临床自然语言处理领域，该数据集为医学命名实体识别任务提供了标准化的训练与评估基准。其核心应用场景聚焦于从非结构化的英文医疗文本中，自动识别并分类关键医学实体，如症状、诊断测试和治疗方法。通过弱监督标注策略，数据集有效支持了模型在真实医疗对话与问答数据上的性能优化，为构建高精度的医疗信息提取系统奠定了数据基础。

实际应用

在实际医疗信息化场景中，该数据集可赋能智能临床决策支持系统与电子健康记录自动化处理。例如，系统能够从患者主诉或医生笔记中实时提取症状与治疗实体，辅助疾病筛查、用药监控与流行病学分析。此外，在医疗问答机器人与患者自助服务平台中，该技术有助于精准理解用户查询，提升医疗服务的响应效率与个性化水平，为远程医疗与公共卫生管理提供技术底层。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于弱监督与多语言医疗实体识别的研究工作。例如，基于其标注框架，学者们探索了跨语言模型迁移方法，以将英文医学实体识别能力适配至低资源语言。同时，该数据集的构建方法论也启发了后续研究，如利用数据增强技术提升模型鲁棒性，以及开发融合领域知识的神经网络架构，进一步推动了临床文本挖掘技术在学术与工业界的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集