five

physionet-deid-i2b2-2014

收藏
Hugging Face2025-06-23 更新2025-06-24 收录
下载链接:
https://huggingface.co/datasets/alecocc/physionet-deid-i2b2-2014
下载链接
链接失效反馈
官方服务:
资源简介:
Physionet Gold Corpus数据集的标签,用于基于I2B2-2014 de-identification challenge指南的命名实体识别任务,包含记录ID、开始位置、长度和实体类型等信息。
创建时间:
2025-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
在医疗信息脱敏研究领域,physionet-deid-i2b2-2014数据集基于Physionet黄金语料库构建,严格遵循I2B2-2014挑战赛的标注规范。标注过程参照了《生物医学信息学杂志》发表的标准化指南,通过专家人工标注实现了对临床叙事文本中敏感信息的精准定位。数据集采用CSV格式结构化存储,每条记录包含文本偏移量、实体长度及11类预定义实体类型,确保了与原始语料库的完整对应关系。
特点
该数据集最显著的特征在于其标注体系的专业性和完整性,涵盖姓名、年龄、机构等11类医疗文本常见敏感信息实体。标注方案源自权威的I2B2-2014挑战标准,具有高度的领域适应性和学术认可度。数据记录采用复合ID编码系统,通过'||||'分隔符保持与原始文本的映射关系,为跨数据集研究提供了技术可行性。实体边界标注精确到字符级别,特别适合开发高精度的命名实体识别模型。
使用方法
研究人员可直接加载CSV文件进行模型训练与评估,其中begin和length字段组合可精确还原原始文本中的实体位置。该数据集主要应用于医疗文本脱敏系统的性能测试,通过与I2B2-2014数据的联合使用,可验证模型在跨机构医疗文本上的泛化能力。使用时应特别注意记录ID与Physionet原始语料的对应关系,建议配合原始论文描述的预处理流程进行数据对齐。
背景与挑战
背景概述
physionet-deid-i2b2-2014数据集诞生于2014年,由i2b2/UTHealth研究团队主导构建,旨在解决临床文本去标识化这一关键问题。该数据集基于Physionet Gold Corpus进行标注,严格遵循i2b2-2014去标识化挑战的标注规范,为生物医学自然语言处理领域提供了重要基准。其核心研究聚焦于从临床叙事文本中识别并移除个人身份信息,包括姓名、年龄、机构等敏感实体,在保护患者隐私的同时促进医疗数据的共享与研究。该数据集的建立显著推动了临床文本去标识化技术的发展,为后续研究提供了可靠的评估标准。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题层面,临床文本去标识化需平衡敏感信息识别准确率与文本语义完整性,不同实体类型间的语义重叠增加了识别难度;构建过程层面,标注规范需严格遵循HIPAA隐私标准,而临床文本的复杂语法结构、非标准化表述以及专业术语的多样性,都对标注一致性和准确性提出了极高要求。此外,跨机构临床文本的异构性也使得统一标注策略的制定颇具挑战。
常用场景
经典使用场景
在医疗信息处理领域,physionet-deid-i2b2-2014数据集被广泛用于命名实体识别任务,特别是在临床文本的去标识化研究中。该数据集基于I2B2-2014挑战赛的标注标准,为研究人员提供了一个标准化的基准,用于评估和比较不同模型在识别和保护敏感医疗信息方面的性能。
解决学术问题
该数据集解决了医疗文本去标识化中的关键学术问题,如如何准确识别和分类临床笔记中的敏感信息,包括姓名、年龄、医院名称等。通过提供详细的标注数据,研究人员能够开发更精确的算法,确保患者隐私保护的同时,不影响医疗数据的可用性。
衍生相关工作
该数据集衍生了许多经典的研究工作,特别是在自然语言处理和医疗信息学领域。例如,基于该数据集的研究提出了多种深度学习模型,如BiLSTM-CRF和BERT-based模型,用于提高去标识化的准确性和效率。这些工作进一步推动了医疗文本处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作