ai4privacy/pii-masking-health-phi-preview
收藏Hugging Face2026-04-04 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ai4privacy/pii-masking-health-phi-preview
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- en
- de
- fr
- es
- it
- nl
- pt
- pl
- cs
- ro
- hu
- bg
- el
- hr
- sk
- sl
- sr
- lt
- lv
- et
- fi
- da
- sv
task_categories:
- token-classification
tags:
- pii
- privacy
- ner
- synthetic-data
- gdpr
- european
- preview
pretty_name: "PII Masking Personal Health & Medical Information (PHI) — Preview"
size_categories:
- n<1K
configs:
- config_name: default
data_files:
- split: preview
path: "data/*.jsonl"
---
# PII Masking Personal Health & Medical Information (PHI) — Preview
**50 sample entries** from the PII-Masking-2M European release by [AI4Privacy](https://ai4privacy.com).
> Source text and PII values are redacted in this preview. Contact us for full access.
## Label Distribution

## Language Distribution

## European Coverage

## Full Dataset
The complete dataset is available at [`ai4privacy/pii-masking-health-phi-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-200k).
## Part of PII-Masking-2M
| Dataset | Category |
|---------|----------|
| [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | Personal Health Information |
| [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | Personal Financial Information |
| [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | Personal Digital Information |
| [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | Personal Work & HR Information |
| [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | Personal Location & Travel Information |
| [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | General Open PII |
---
## Contact
- Partnerships: partnerships@ai4privacy.com
- Website: [ai4privacy.com](https://ai4privacy.com)
- Discord: [https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT)
Ai4Privacy is a project affiliated with [Ai Suisse SA](https://www.aisuisse.com/).
## p5y Data Analytics
This dataset is built on the [p5y](https://p5y.org) framework - think of it as i18n but for privacy. Just as i18n (internationalization) translates content into different locales, p5y translates sensitive data into privacy-safe formats through a standardized 3-step approach:
1. **Awareness** - Scan and markup private entities in unstructured text, producing a structured privacy mask with entity types, distribution, density, and risk assessment.
2. **Protection** - Control identified personal data through masking, pseudonymization, or k-anonymization, tailored to the specific use case and regulatory requirements.
3. **Quality Assurance** - Measure remaining privacy risk after anonymization, evaluating de-anonymization risks through expert annotation and automated assessment.
Learn more at [p5y.org](https://p5y.org)
提供机构:
ai4privacy
搜集汇总
数据集介绍

构建方式
在医疗健康信息隐私保护领域,该预览数据集源自AI4Privacy发布的PII-Masking-2M欧洲版本,采用了p5y隐私框架进行系统构建。其构建过程遵循标准化三步流程:首先通过扫描与标记在非结构化文本中识别个人隐私实体,生成包含实体类型、分布及风险评估的结构化隐私掩码;随后依据具体应用场景与法规要求,对已识别的个人数据实施掩码、假名化或k-匿名化等保护措施;最终通过专家标注与自动化评估相结合的方式,量化匿名化后的剩余隐私风险,确保数据脱敏质量。
特点
该数据集聚焦于个人健康与医疗信息(PHI)的隐私保护,涵盖24种欧洲语言,地理范围覆盖包括英国、法国、德国、北欧、巴尔干及伊比利亚地区在内的25个欧洲国家,体现了广泛的语言与文化多样性。作为预览版本,它提供了50条样本条目,源文本与个人可识别信息(PII)值均经过脱敏处理,完整数据集包含20万条记录。数据集专为命名实体识别(NER)等任务设计,标签体系清晰,支持对隐私实体进行系统分类与标注,为符合GDPR等欧洲隐私法规的研究与应用提供了基准资源。
使用方法
该数据集主要用于训练与评估隐私保护模型,特别是在医疗健康文本的匿名化与去标识化任务中。研究人员可将其应用于命名实体识别模型的开发,以自动检测文本中的个人可识别信息;亦可用于评估不同脱敏算法(如掩码、假名化)的效果,通过对比匿名化前后的数据质量与隐私风险,优化隐私保护技术。使用前需注意预览版本已对敏感信息进行脱敏,完整数据集需联系提供方获取;数据加载可通过HuggingFace库直接读取JSONL格式文件,并参考p5y框架进行后续的隐私风险分析与质量验证。
背景与挑战
背景概述
在数据驱动时代,个人健康与医疗信息(PHI)的隐私保护成为人工智能与法律合规交叉领域的核心议题。由AI4Privacy机构发布的PII-Masking-Health-PHI-Preview数据集,作为PII-Masking-2M欧洲版本的一部分,专注于识别和掩码医疗文本中的个人可识别信息。该数据集覆盖24种欧洲语言,旨在为自然语言处理中的命名实体识别任务提供高质量标注资源,以应对欧盟《通用数据保护条例》(GDPR)等严格隐私法规的要求,推动隐私保护技术在医疗健康领域的实际应用。
当前挑战
该数据集致力于解决医疗文本中个人可识别信息(PII)的自动检测与掩码问题,其核心挑战在于高精度识别跨语言、跨文化背景下的多样化实体类型,如患者姓名、医疗记录编号等,同时需平衡隐私保护与数据效用。在构建过程中,面临合成数据生成的真实性保障、多语言标注的一致性维护,以及敏感信息脱敏后仍可能存在的重识别风险等难题,这些因素共同构成了数据集开发与应用的技术壁垒。
常用场景
经典使用场景
在医疗健康信息处理领域,保护患者隐私是数据应用的核心前提。该数据集作为个人健康与医疗信息(PHI)的匿名化预览样本,其经典使用场景在于为自然语言处理模型提供训练与评估基准,专门用于识别和掩码文本中的敏感实体。研究人员可利用这些标注数据开发命名实体识别(NER)系统,精准定位医疗记录中的个人身份信息,如姓名、地址或医疗标识符,从而在数据预处理阶段实现自动化隐私保护,为后续的医疗数据分析奠定安全基础。
解决学术问题
该数据集直接应对医疗文本隐私保护的学术挑战,解决了如何在多语言环境下有效识别和匿名化个人健康信息的核心问题。其意义在于为符合GDPR等严格隐私法规的研究提供了标准化数据资源,促进了隐私保护技术与医疗人工智能的交叉融合。通过提供涵盖24种欧洲语言的标注样本,该数据集推动了跨语言隐私实体识别模型的发展,降低了医疗数据共享中的再识别风险,对构建可信赖的健康数据生态系统产生了深远影响。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在隐私保护的自然语言处理架构与评估框架上。例如,基于p5y框架的隐私感知数据流水线研究,系统化地集成了实体识别、掩码策略和风险评估模块。同时,催生了针对多语言医疗文本的细粒度匿名化模型,以及用于衡量匿名化后数据效用与隐私风险的量化指标。这些工作共同构成了一个不断演进的技术生态,为后续更大规模的PHI数据集(如完整的20万条数据集)的应用与改进提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



