ai4privacy/pii-masking-digital-pdi-preview
收藏Hugging Face2026-04-04 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ai4privacy/pii-masking-digital-pdi-preview
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- en
- de
- fr
- es
- it
- nl
- pt
- pl
- cs
- ro
- hu
- bg
- el
- hr
- sk
- sl
- sr
- lt
- lv
- et
- fi
- da
- sv
task_categories:
- token-classification
tags:
- pii
- privacy
- ner
- synthetic-data
- gdpr
- european
- preview
pretty_name: "PII Masking Personal Digital Information (PDI) — Preview"
size_categories:
- n<1K
configs:
- config_name: default
data_files:
- split: preview
path: "data/*.jsonl"
---
# PII Masking Personal Digital Information (PDI) — Preview
**50 sample entries** from the PII-Masking-2M European release by [AI4Privacy](https://ai4privacy.com).
> Source text and PII values are redacted in this preview. Contact us for full access.
## Label Distribution

## Language Distribution

## European Coverage

## Full Dataset
The complete dataset is available at [`ai4privacy/pii-masking-digital-pdi-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-200k).
## Part of PII-Masking-2M
| Dataset | Category |
|---------|----------|
| [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | Personal Health Information |
| [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | Personal Financial Information |
| [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | Personal Digital Information |
| [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | Personal Work & HR Information |
| [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | Personal Location & Travel Information |
| [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | General Open PII |
---
## Contact
- Partnerships: partnerships@ai4privacy.com
- Website: [ai4privacy.com](https://ai4privacy.com)
- Discord: [https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT)
Ai4Privacy is a project affiliated with [Ai Suisse SA](https://www.aisuisse.com/).
## p5y Data Analytics
This dataset is built on the [p5y](https://p5y.org) framework - think of it as i18n but for privacy. Just as i18n (internationalization) translates content into different locales, p5y translates sensitive data into privacy-safe formats through a standardized 3-step approach:
1. **Awareness** - Scan and markup private entities in unstructured text, producing a structured privacy mask with entity types, distribution, density, and risk assessment.
2. **Protection** - Control identified personal data through masking, pseudonymization, or k-anonymization, tailored to the specific use case and regulatory requirements.
3. **Quality Assurance** - Measure remaining privacy risk after anonymization, evaluating de-anonymization risks through expert annotation and automated assessment.
Learn more at [p5y.org](https://p5y.org)
提供机构:
ai4privacy
搜集汇总
数据集介绍

构建方式
在个人数字信息隐私保护领域,该预览数据集作为PII-Masking-2M大规模资源的一部分,其构建遵循了p5y隐私框架的标准化流程。该方法首先对多语言文本进行隐私实体扫描与标注,生成结构化掩码以识别实体类型与分布;随后依据具体场景与法规要求,通过掩码化或假名化等技术对敏感信息实施保护;最终通过专家标注与自动化评估相结合的方式,对匿名化后的剩余隐私风险进行质量度量,确保数据既满足研究需求又符合GDPR等欧洲隐私法规。
使用方法
该数据集主要用于命名实体识别与隐私保护相关的模型训练与评估任务。研究者可通过HuggingFace平台直接加载预览数据,利用其标注的实体边界与类型信息,开发或优化针对个人可识别信息的自动检测与掩码模型。由于数据已进行脱敏,它可直接用于算法验证与隐私风险评估框架的测试。对于需要完整数据的研究,用户可联系官方获取完整版本,或将本预览集作为原型开发的参考,结合提供的语言与实体分布图表,设计更具泛化能力的多语言隐私保护解决方案。
背景与挑战
背景概述
在数字时代,个人可识别信息的保护已成为隐私计算与自然语言处理领域的核心议题。由AI4Privacy机构构建的PII-Masking-2M数据集系列,旨在为欧洲多语言环境下的隐私保护研究提供标准化资源。该预览版本聚焦于个人数字信息类别,涵盖了24种欧洲语言,其设计初衷在于应对通用数据保护条例等法规对数据匿名化的严格要求,通过结构化标注支持实体识别与掩码技术的开发,为隐私增强型机器学习模型提供了关键的训练与评估基础。
当前挑战
该数据集致力于解决多语言文本中个人可识别信息的自动检测与掩码问题,其核心挑战在于跨语言实体识别的一致性与泛化能力,尤其是在低资源语言中保持高精度。构建过程中的挑战则体现在大规模高质量标注的获取,需在严格遵循GDPR等法规的前提下,平衡数据真实性与隐私风险,同时确保24种语言间标注标准与实体分布的均衡性,以支撑鲁棒的隐私保护模型训练。
常用场景
经典使用场景
在数字隐私保护领域,PII-Masking-Digital-PDI-Preview数据集为个人数字信息(PDI)的匿名化处理提供了关键资源。该数据集广泛应用于命名实体识别(NER)任务,特别是针对欧洲多语言环境下的敏感信息检测与掩码。研究者利用其标注的实体类型,如姓名、地址、联系方式等,训练和评估模型在真实场景中识别并保护个人身份信息的能力,从而推动隐私增强技术的发展。
解决学术问题
该数据集有效解决了隐私计算中个人可识别信息(PII)自动检测与匿名化的核心学术挑战。通过提供覆盖24种欧洲语言、包含多种实体类型的标注样本,它支持跨语言隐私保护模型的泛化性研究,并助力于GDPR等法规合规性技术的探索。其结构化标注框架促进了隐私风险评估与去匿名化攻击防御方法的发展,为构建可信赖的人工智能系统奠定了数据基础。
实际应用
在实际应用中,该数据集被企业及开发团队用于构建隐私安全的文本处理系统。例如,在客户服务自动化、内容审核及数据共享平台中,集成基于此数据集训练的模型可实时识别并掩码用户对话、文档中的敏感信息,确保符合欧洲隐私法规要求。此外,它还为金融、医疗等行业的数据脱敏工具提供了基准测试,助力实现数据利用与隐私保护的平衡。
数据集最近研究
最新研究方向
在数据隐私保护领域,个人数字信息(PDI)的匿名化处理正成为研究热点,尤其随着欧盟《通用数据保护条例》(GDPR)等法规的严格执行。该数据集聚焦于多语言环境下的个人可识别信息(PII)掩码技术,覆盖24种欧洲语言,为开发跨语言隐私保护模型提供了关键资源。前沿研究探索基于合成数据的隐私增强方法,结合命名实体识别(NER)与自动化掩码策略,以平衡数据效用与隐私风险。此类工作不仅推动隐私计算技术的演进,也为金融、医疗等敏感行业的合规数据共享奠定基础,具有显著的学术与应用价值。
以上内容由遇见数据集搜集并总结生成



