ai4privacy/pii-masking-work-pwi-preview
收藏Hugging Face2026-04-04 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ai4privacy/pii-masking-work-pwi-preview
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- en
- de
- fr
- es
- it
- nl
- pt
- pl
- cs
- ro
- hu
- bg
- el
- hr
- sk
- sl
- sr
- lt
- lv
- et
- fi
- da
- sv
task_categories:
- token-classification
tags:
- pii
- privacy
- ner
- synthetic-data
- gdpr
- european
- preview
pretty_name: "PII Masking Personal Work & HR Information (PWI) — Preview"
size_categories:
- n<1K
configs:
- config_name: default
data_files:
- split: preview
path: "data/*.jsonl"
---
# PII Masking Personal Work & HR Information (PWI) — Preview
**50 sample entries** from the PII-Masking-2M European release by [AI4Privacy](https://ai4privacy.com).
> Source text and PII values are redacted in this preview. Contact us for full access.
## Label Distribution

## Language Distribution

## European Coverage

## Full Dataset
The complete dataset is available at [`ai4privacy/pii-masking-work-pwi-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-200k).
## Part of PII-Masking-2M
| Dataset | Category |
|---------|----------|
| [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | Personal Health Information |
| [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | Personal Financial Information |
| [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | Personal Digital Information |
| [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | Personal Work & HR Information |
| [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | Personal Location & Travel Information |
| [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | General Open PII |
---
## Contact
- Partnerships: partnerships@ai4privacy.com
- Website: [ai4privacy.com](https://ai4privacy.com)
- Discord: [https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT)
Ai4Privacy is a project affiliated with [Ai Suisse SA](https://www.aisuisse.com/).
## p5y Data Analytics
This dataset is built on the [p5y](https://p5y.org) framework - think of it as i18n but for privacy. Just as i18n (internationalization) translates content into different locales, p5y translates sensitive data into privacy-safe formats through a standardized 3-step approach:
1. **Awareness** - Scan and markup private entities in unstructured text, producing a structured privacy mask with entity types, distribution, density, and risk assessment.
2. **Protection** - Control identified personal data through masking, pseudonymization, or k-anonymization, tailored to the specific use case and regulatory requirements.
3. **Quality Assurance** - Measure remaining privacy risk after anonymization, evaluating de-anonymization risks through expert annotation and automated assessment.
Learn more at [p5y.org](https://p5y.org)
提供机构:
ai4privacy
搜集汇总
数据集介绍

构建方式
在隐私保护计算领域,PII Masking Personal Work & HR Information (PWI) — Preview 数据集作为PII-Masking-2M欧洲版本的一部分,其构建遵循了p5y隐私框架的标准化流程。该框架通过三个核心步骤实现数据隐私化:首先进行隐私意识扫描,在非结构化文本中标记个人实体,生成包含实体类型、分布、密度及风险评估的结构化隐私掩码;随后实施保护措施,根据具体用例和法规要求,对识别出的个人数据进行掩码、假名化或k-匿名化处理;最后执行质量保证,通过专家标注和自动化评估,衡量匿名化后剩余的隐私风险,确保数据满足严格的隐私标准。
特点
该数据集聚焦于个人工作与人力资源信息领域,涵盖24种欧洲语言,包括英语、德语、法语、西班牙语等主要语种,以及北欧、巴尔干和伊比利亚半岛等地区的语言变体,体现了广泛的地域覆盖性。作为预览版本,它提供了50条样本条目,源文本和个人可识别信息值均经过脱敏处理,旨在展示数据结构和标注格式。数据集专为令牌分类任务设计,标签分布覆盖多种PII实体类型,适用于隐私保护、命名实体识别及合成数据生成等研究方向,为欧洲GDPR等隐私法规下的模型开发提供了重要资源。
使用方法
研究人员和开发者可通过HuggingFace平台访问该预览数据集,利用其进行隐私保护算法的初步测试与验证。数据集以JSONL格式提供,每条记录包含经过掩码处理的文本及对应的实体标注,适用于训练和评估命名实体识别模型,特别是在多语言环境下识别工作相关个人可识别信息。用户可结合完整的200k条目数据集以扩展实验规模,或参考p5y框架实施隐私风险评估。对于需要完整数据访问的学术或商业合作,可通过官方联系渠道获取许可,以支持更深入的隐私计算研究与应用开发。
背景与挑战
背景概述
在数据隐私保护与自然语言处理交叉领域,个人身份信息(PII)的识别与掩码技术已成为应对欧盟《通用数据保护条例》(GDPR)等严格法规的核心研究课题。由AI4Privacy机构发布的pii-masking-work-pwi-preview数据集,作为PII-Masking-2M大规模资源的一部分,专注于工作场所与人力资源相关的敏感信息。该数据集构建于p5y隐私框架之上,旨在通过系统化的标注流程,为开发鲁棒的PII识别模型提供多语言、多地域的基准数据,从而推动隐私增强技术在真实业务场景中的安全部署。
当前挑战
该数据集致力于解决工作环境中个人身份信息自动识别与隐私保护的挑战,其核心在于准确区分各类实体如姓名、职位、薪资等,并适应24种欧洲语言的语法与表达差异。在构建过程中,面临的主要困难包括如何生成高质量合成数据以平衡隐私与实用性,确保标注在不同语言和文化背景下的一致性,以及设计符合GDPR等动态法规要求的匿名化策略,这些因素共同构成了数据集开发与模型泛化能力提升的关键瓶颈。
常用场景
经典使用场景
在隐私保护与自然语言处理交叉领域,PII-Masking-Work-PWI-Preview数据集为研究人员提供了关键资源。该数据集专注于个人工作与人力资源信息中的隐私实体识别与掩码任务,涵盖24种欧洲语言,支持多语言命名实体识别模型的训练与评估。其经典使用场景在于构建和验证能够自动检测并匿名化文本中敏感工作相关信息(如员工姓名、职位、薪资等)的算法,这对于开发符合GDPR等隐私法规的自动化工具至关重要。
实际应用
在实际应用中,该数据集支撑的模型可广泛应用于企业人力资源管理系统、招聘平台、内部通讯审计以及外包数据处理服务。通过自动化识别和掩码员工薪酬、绩效评估、合同条款等敏感信息,组织能够大幅降低数据泄露风险,并确保在数据共享、云存储或第三方分析时遵守严格的隐私法规。这为金融、医疗、科技等行业处理包含员工数据的文档提供了可落地的隐私保护解决方案。
衍生相关工作
围绕该数据集及其所属的PII-Masking-2M系列,已衍生出多项经典研究工作。这些工作主要集中在多语言隐私实体识别模型架构的优化、针对GDPR合规要求的风险评估框架构建,以及基于p5y框架的隐私转换质量评估方法。相关研究不仅提升了特定领域PII识别的精度,还促进了隐私保护技术从理论到工程实践的跨越,为后续开发更健壮、可解释的隐私保护系统提供了重要参考。
以上内容由遇见数据集搜集并总结生成



