phi-masking-100k

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/ai4privacy/phi-masking-100k

下载链接

链接失效反馈

官方服务：

资源简介：

EPII个人健康信息（PHI）遮蔽100k预览数据集是一个专为识别和遮蔽文本数据中的敏感个人健康信息而设计的专业化数据集。这个预览数据集包含400个样本，展示了数据结构、标签分类和质量，代表了超过100,000条记录的商业数据集的特点。完整数据集支持8种语言，适用于需要强大PII检测和遮蔽功能的企业应用，以满足各种数据保护法规的要求。

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

该数据集作为EPII个人健康信息（PHI）掩码数据集的预览版本，精选了400条具有代表性的样本，展示了完整数据集的结构、标签分类及数据质量。完整数据集包含超过10万条条目，专为满足企业级PII检测和掩码需求设计，尤其适用于GDPR、CCPA、HIPAA等法规的合规要求。数据集支持8种语言，其中印地语和泰卢固语尚处于实验阶段。数据格式采用JSON Lines，便于自然语言处理任务的直接应用。

特点

数据集聚焦于个人健康信息的识别与掩码，涵盖22种特定标签，如年龄、过敏史、血型、出生日期等，全面覆盖医疗健康领域的敏感信息。多语言支持使其具备跨国应用的潜力，尤其适合需要处理多语言数据的企业。预览版本虽不包含原始文本及详细注释，但通过掩码文本展示了数据处理的典型范例，为评估数据集适用性提供了直观参考。

使用方法

该数据集主要用于评估模型在识别和掩码个人健康信息方面的性能。用户可通过解析JSON Lines文件获取掩码文本及相关元数据，如语言代码、区域标识等。完整数据集则提供原始文本、隐私掩码详细信息及分词标签，适用于模型训练与合规性验证。企业用户需联系Ai4Privacy获取商业许可，以访问完整数据集并用于生产环境，确保符合各项数据隐私法规的要求。

背景与挑战

背景概述

EPII Personal Health Information (PHI) Masking 100k Preview Dataset由Ai4Privacy团队开发，旨在解决医疗健康领域敏感信息识别的关键问题。该数据集创建于2025年，专注于个人健康信息（PHI）的检测与掩码，支持包括英语、法语、德语等在内的8种语言，其中印地语和泰卢固语尚处于实验阶段。其核心研究问题在于如何高效准确地识别文本中的敏感健康信息，以满足GDPR、CCPA、HIPAA等严格的数据隐私法规要求。该数据集的推出为医疗健康、金融保险等行业提供了重要的合规自动化工具，推动了隐私保护技术在自然语言处理领域的应用。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题方面，医疗健康信息的多样性和复杂性使得敏感信息的准确识别极具挑战性，如不同语言和文化背景下PHI表达的差异性；构建过程方面，多语言支持尤其是低资源语言的标注质量保障、22种精细标签体系的建立，以及商业级数据集的合规性要求，都为数据集的构建带来了显著的技术和法规挑战。此外，如何在保证数据实用性的同时严格遵守隐私保护法规，也是数据集开发过程中需要持续平衡的关键问题。

常用场景

经典使用场景

在医疗健康信息处理领域，phi-masking-100k数据集为识别和掩码敏感个人健康信息提供了标准化解决方案。该数据集通过400个样本的预览版本，展示了其在多语言环境下对22类PHI标签的精准标注能力，为研究人员提供了合规性数据处理的参考框架。其经典应用场景包括电子健康记录的去标识化处理，以及临床文本分析前的隐私保护预处理。

衍生相关工作

基于该数据集的技术路线，衍生出多个医疗隐私保护领域的创新研究。包括结合BERT的多语言PHI识别框架、基于主动学习的增量式标注系统，以及符合GDPR要求的动态掩码算法。这些工作显著提升了跨机构医疗数据共享的安全性，为后续的医疗知识图谱构建和临床决策支持系统开发奠定了隐私保护基础。

数据集最近研究