ai4privacy/pii-masking-digital-pdi-preview

Name: ai4privacy/pii-masking-digital-pdi-preview
Creator: ai4privacy
Published: 2026-04-04 16:18:35
License: 暂无描述

Hugging Face2026-04-04 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/ai4privacy/pii-masking-digital-pdi-preview

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 language: - en - de - fr - es - it - nl - pt - pl - cs - ro - hu - bg - el - hr - sk - sl - sr - lt - lv - et - fi - da - sv task_categories: - token-classification tags: - pii - privacy - ner - synthetic-data - gdpr - european - preview pretty_name: "PII Masking Personal Digital Information (PDI) — Preview" size_categories: - n<1K configs: - config_name: default data_files: - split: preview path: "data/*.jsonl" --- # PII Masking Personal Digital Information (PDI) — Preview **50 sample entries** from the PII-Masking-2M European release by [AI4Privacy](https://ai4privacy.com). > Source text and PII values are redacted in this preview. Contact us for full access. ## Label Distribution ![Bar chart showing PII label distribution across entity types](assets/label_distribution.png) ## Language Distribution ![Bar chart showing entry distribution across 24 European languages](assets/language_distribution.png) ## European Coverage ![Map of Europe highlighting 25 covered countries including UK, France, Germany, Nordics, Balkans, and Iberia](assets/eu_map.png) ## Full Dataset The complete dataset is available at [`ai4privacy/pii-masking-digital-pdi-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-200k). ## Part of PII-Masking-2M | Dataset | Category | |---------|----------| | [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | Personal Health Information | | [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | Personal Financial Information | | [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | Personal Digital Information | | [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | Personal Work & HR Information | | [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | Personal Location & Travel Information | | [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | General Open PII | --- ## Contact - Partnerships: partnerships@ai4privacy.com - Website: [ai4privacy.com](https://ai4privacy.com) - Discord: [https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT) Ai4Privacy is a project affiliated with [Ai Suisse SA](https://www.aisuisse.com/). ## p5y Data Analytics This dataset is built on the [p5y](https://p5y.org) framework - think of it as i18n but for privacy. Just as i18n (internationalization) translates content into different locales, p5y translates sensitive data into privacy-safe formats through a standardized 3-step approach: 1. **Awareness** - Scan and markup private entities in unstructured text, producing a structured privacy mask with entity types, distribution, density, and risk assessment. 2. **Protection** - Control identified personal data through masking, pseudonymization, or k-anonymization, tailored to the specific use case and regulatory requirements. 3. **Quality Assurance** - Measure remaining privacy risk after anonymization, evaluating de-anonymization risks through expert annotation and automated assessment. Learn more at [p5y.org](https://p5y.org)

提供机构：

ai4privacy

搜集汇总

数据集介绍

构建方式

在个人数字信息隐私保护领域，该预览数据集作为PII-Masking-2M大规模资源的一部分，其构建遵循了p5y隐私框架的标准化流程。该方法首先对多语言文本进行隐私实体扫描与标注，生成结构化掩码以识别实体类型与分布；随后依据具体场景与法规要求，通过掩码化或假名化等技术对敏感信息实施保护；最终通过专家标注与自动化评估相结合的方式，对匿名化后的剩余隐私风险进行质量度量，确保数据既满足研究需求又符合GDPR等欧洲隐私法规。

使用方法

该数据集主要用于命名实体识别与隐私保护相关的模型训练与评估任务。研究者可通过HuggingFace平台直接加载预览数据，利用其标注的实体边界与类型信息，开发或优化针对个人可识别信息的自动检测与掩码模型。由于数据已进行脱敏，它可直接用于算法验证与隐私风险评估框架的测试。对于需要完整数据的研究，用户可联系官方获取完整版本，或将本预览集作为原型开发的参考，结合提供的语言与实体分布图表，设计更具泛化能力的多语言隐私保护解决方案。

背景与挑战

背景概述

在数字时代，个人可识别信息的保护已成为隐私计算与自然语言处理领域的核心议题。由AI4Privacy机构构建的PII-Masking-2M数据集系列，旨在为欧洲多语言环境下的隐私保护研究提供标准化资源。该预览版本聚焦于个人数字信息类别，涵盖了24种欧洲语言，其设计初衷在于应对通用数据保护条例等法规对数据匿名化的严格要求，通过结构化标注支持实体识别与掩码技术的开发，为隐私增强型机器学习模型提供了关键的训练与评估基础。

当前挑战

该数据集致力于解决多语言文本中个人可识别信息的自动检测与掩码问题，其核心挑战在于跨语言实体识别的一致性与泛化能力，尤其是在低资源语言中保持高精度。构建过程中的挑战则体现在大规模高质量标注的获取，需在严格遵循GDPR等法规的前提下，平衡数据真实性与隐私风险，同时确保24种语言间标注标准与实体分布的均衡性，以支撑鲁棒的隐私保护模型训练。

常用场景

经典使用场景

在数字隐私保护领域，PII-Masking-Digital-PDI-Preview数据集为个人数字信息（PDI）的匿名化处理提供了关键资源。该数据集广泛应用于命名实体识别（NER）任务，特别是针对欧洲多语言环境下的敏感信息检测与掩码。研究者利用其标注的实体类型，如姓名、地址、联系方式等，训练和评估模型在真实场景中识别并保护个人身份信息的能力，从而推动隐私增强技术的发展。

解决学术问题

该数据集有效解决了隐私计算中个人可识别信息（PII）自动检测与匿名化的核心学术挑战。通过提供覆盖24种欧洲语言、包含多种实体类型的标注样本，它支持跨语言隐私保护模型的泛化性研究，并助力于GDPR等法规合规性技术的探索。其结构化标注框架促进了隐私风险评估与去匿名化攻击防御方法的发展，为构建可信赖的人工智能系统奠定了数据基础。

实际应用

在实际应用中，该数据集被企业及开发团队用于构建隐私安全的文本处理系统。例如，在客户服务自动化、内容审核及数据共享平台中，集成基于此数据集训练的模型可实时识别并掩码用户对话、文档中的敏感信息，确保符合欧洲隐私法规要求。此外，它还为金融、医疗等行业的数据脱敏工具提供了基准测试，助力实现数据利用与隐私保护的平衡。

数据集最近研究