physionet-deid-i2b2-2014

Hugging Face2025-06-23 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/alecocc/physionet-deid-i2b2-2014

下载链接

链接失效反馈

官方服务：

资源简介：

Physionet Gold Corpus数据集的标签，用于基于I2B2-2014 de-identification challenge指南的命名实体识别任务，包含记录ID、开始位置、长度和实体类型等信息。

创建时间：

2025-06-20

搜集汇总

数据集介绍

构建方式

在医疗信息脱敏研究领域，physionet-deid-i2b2-2014数据集基于Physionet黄金语料库构建，严格遵循I2B2-2014挑战赛的标注规范。标注过程参照了《生物医学信息学杂志》发表的标准化指南，通过专家人工标注实现了对临床叙事文本中敏感信息的精准定位。数据集采用CSV格式结构化存储，每条记录包含文本偏移量、实体长度及11类预定义实体类型，确保了与原始语料库的完整对应关系。

特点

该数据集最显著的特征在于其标注体系的专业性和完整性，涵盖姓名、年龄、机构等11类医疗文本常见敏感信息实体。标注方案源自权威的I2B2-2014挑战标准，具有高度的领域适应性和学术认可度。数据记录采用复合ID编码系统，通过'||||'分隔符保持与原始文本的映射关系，为跨数据集研究提供了技术可行性。实体边界标注精确到字符级别，特别适合开发高精度的命名实体识别模型。

使用方法

研究人员可直接加载CSV文件进行模型训练与评估，其中begin和length字段组合可精确还原原始文本中的实体位置。该数据集主要应用于医疗文本脱敏系统的性能测试，通过与I2B2-2014数据的联合使用，可验证模型在跨机构医疗文本上的泛化能力。使用时应特别注意记录ID与Physionet原始语料的对应关系，建议配合原始论文描述的预处理流程进行数据对齐。

背景与挑战

背景概述

physionet-deid-i2b2-2014数据集诞生于2014年，由i2b2/UTHealth研究团队主导构建，旨在解决临床文本去标识化这一关键问题。该数据集基于Physionet Gold Corpus进行标注，严格遵循i2b2-2014去标识化挑战的标注规范，为生物医学自然语言处理领域提供了重要基准。其核心研究聚焦于从临床叙事文本中识别并移除个人身份信息，包括姓名、年龄、机构等敏感实体，在保护患者隐私的同时促进医疗数据的共享与研究。该数据集的建立显著推动了临床文本去标识化技术的发展，为后续研究提供了可靠的评估标准。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，临床文本去标识化需平衡敏感信息识别准确率与文本语义完整性，不同实体类型间的语义重叠增加了识别难度；构建过程层面，标注规范需严格遵循HIPAA隐私标准，而临床文本的复杂语法结构、非标准化表述以及专业术语的多样性，都对标注一致性和准确性提出了极高要求。此外，跨机构临床文本的异构性也使得统一标注策略的制定颇具挑战。

常用场景

经典使用场景

在医疗信息处理领域，physionet-deid-i2b2-2014数据集被广泛用于命名实体识别任务，特别是在临床文本的去标识化研究中。该数据集基于I2B2-2014挑战赛的标注标准，为研究人员提供了一个标准化的基准，用于评估和比较不同模型在识别和保护敏感医疗信息方面的性能。

解决学术问题

该数据集解决了医疗文本去标识化中的关键学术问题，如如何准确识别和分类临床笔记中的敏感信息，包括姓名、年龄、医院名称等。通过提供详细的标注数据，研究人员能够开发更精确的算法，确保患者隐私保护的同时，不影响医疗数据的可用性。

衍生相关工作

该数据集衍生了许多经典的研究工作，特别是在自然语言处理和医疗信息学领域。例如，基于该数据集的研究提出了多种深度学习模型，如BiLSTM-CRF和BERT-based模型，用于提高去标识化的准确性和效率。这些工作进一步推动了医疗文本处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集