bigbio/n2c2_2014_deid

Name: bigbio/n2c2_2014_deid
Creator: bigbio
Published: 2022-12-22 15:45:57
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/n2c2_2014_deid

下载链接

链接失效反馈

官方服务：

资源简介：

n2c2 2014 De-identification数据集是2014年i2b2/UTHealth自然语言处理共享任务的一部分，专注于去识别化任务。该数据集主要用于命名实体识别（NER）任务，特别是识别临床叙述中的受保护健康信息（PHI）。根据HIPAA的要求，患者医疗记录中的所有识别信息必须被移除以保护患者隐私。数据集中的PHI被标记为18个类别，这些类别被进一步分为6个主要类别和25个子类别。

The n2c2 2014 De-identification Dataset is part of the 2014 i2b2/UTHealth Natural Language Processing (NLP) Shared Task, focusing on the de-identification task. This dataset is primarily used for Named Entity Recognition (NER) tasks, specifically for identifying Protected Health Information (PHI) in clinical narratives. Per the requirements of the Health Insurance Portability and Accountability Act (HIPAA), all identifying information in patient medical records must be removed to protect patient privacy. PHI in this dataset is annotated into 18 categories, which are further divided into 6 major categories and 25 subcategories.

提供机构：

bigbio

原始信息汇总

数据集概述：n2c2 2014 De-identification

基本信息

语言: 英语
许可证: 其他 (DUA)
多语言性: 单语种
数据集名称: n2c2 2014 De-identification
主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/

数据集描述

是否公开: 否
是否包含PubMed数据: 否
任务类型: 命名实体识别 (NER)

任务详情

任务: 识别保护的健康信息 (PHI) 在纵向临床叙述中的去识别化
PHI类别: 根据HIPAA规定，共有18个PHI标识符类别，这些类别被分为6个主要类别和25个子类别

引用信息

@article{stubbs2015automated, title = {Automated systems for the de-identification of longitudinal clinical narratives: Overview of 2014 i2b2/UTHealth shared task Track 1}, journal = {Journal of Biomedical Informatics}, volume = {58}, pages = {S11-S19}, year = {2015}, issn = {1532-0464}, doi = {https://doi.org/10.1016/j.jbi.2015.06.007}, url = {https://www.sciencedirect.com/science/article/pii/S1532046415001173}, author = {Amber Stubbs and Christopher Kotfila and Özlem Uzuner} }

搜集汇总

数据集介绍

构建方式

n2c2 2014 De-identification数据集的构建，旨在响应HIPAA对医疗记录去标识化的要求。该数据集通过人工标注的方式，对临床叙事文本中的受保护健康信息（PHI）进行XML标签标注，涵盖了18类PHI标识符，进一步归纳为6个主要类别和25个子类别，以此构建了一个用于命名实体识别任务的训练资源。

特点

该数据集的特点在于其专注于医疗领域的去标识化任务，遵循严格的HIPAA标准。它采用XML标签对文本中的PHI进行精细分类，确保了数据标注的一致性和准确性。此外，作为i2b2/UTHealth共享任务的一部分，该数据集促进了自然语言处理技术在医疗文本中的应用与评估。

使用方法

使用n2c2 2014 De-identification数据集，研究者可以加载经过XML标注的文本数据，进行命名实体识别的训练与测试。数据集的每一份文件都包含了必要的标注信息，用户需依据数据集中的PHI类别和子类别，设计相应的识别算法，以实现对医疗文本中敏感信息的有效识别和保护。

背景与挑战

背景概述

n2c2 2014 De-identification数据集，诞生于2014年i2b2/UTHealth自然语言处理共享任务中的去标识化赛道，由Harvard Medical School的Department of Biomedical Informatics（DBMI）负责构建。该数据集旨在识别和保护患者医疗记录中的受保护健康信息（PHI），以确保患者隐私不受侵犯。该任务对18类PHI标识进行分类，涉及患者及其亲属、雇主或家庭成员的信息。该数据集为医疗信息去标识化领域的研究提供了重要资源，对提高患者数据隐私保护水平产生了深远影响。

当前挑战

该数据集在构建过程中面临了诸多挑战，主要包括：1）如何精确识别并标记出文本中的所有PHI类别，尤其是细粒度的25个子类别，以确保医疗记录的去个性化；2）如何平衡模型对隐私信息的敏感度与对文本内容理解的准确性；3）数据集的标注一致性以及标注质量控制的难题。在解决领域问题方面，数据集需应对的挑战包括：如何在实际应用中保持去标识化过程的效率和准确性，以及如何适应不断变化的隐私保护法规和技术标准。

常用场景

经典使用场景

在自然语言处理领域，n2c2 2014 De-identification数据集的典型应用场景在于对临床叙事文本中的受保护健康信息（PHI）进行识别与标注，以确保患者在医疗记录中的隐私得到保护。该数据集通过提供标注好的文本，助力研究人员开发自动化的去识别系统，从而在符合HIPAA规定的前提下，安全地处理和分享医疗数据。

衍生相关工作

基于n2c2 2014 De-identification数据集的研究成果，已经衍生出一系列相关工作，包括但不限于改进的实体识别算法、隐私保护技术以及针对不同语言和医疗体系的环境适应性研究。这些工作进一步扩展了该数据集的应用范围，并推动了相关领域的学术讨论和技术进步。

数据集最近研究