pwi-masking-100k

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/ai4privacy/pwi-masking-100k

下载链接

链接失效反馈

官方服务：

资源简介：

EPII个人工作信息（PWI）遮蔽100k预览数据集是一个专为识别和遮蔽文本数据中的敏感个人工作信息而设计的专业数据集。这个预览版展示了数据结构、标签分类和质量，代表了完整的100,000+条目的商业数据集。数据集支持8种语言，目前支持的语言包括英语、法语、德语、意大利语、西班牙语、荷兰语、印地语和泰卢固语，其中印地语和泰卢固语还处于试验阶段。

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

该数据集作为EPII个人工作信息（PWI）屏蔽数据集的预览版本，精选了400条具有代表性的样本，展示了完整商业数据集（包含10万+条目）的数据结构、标签分类和质量标准。数据集采用JSON Lines格式存储，每条记录包含经过脱敏处理的文本、语言标识及区域代码等元数据，完整版本则提供原始文本、隐私掩码详细标注及多语言BERT分词结果。数据采集严格遵循企业级隐私合规要求，覆盖8种语言（含实验性支持的印地语和泰卢固语），并针对12类工作场景敏感信息进行专业标注。

特点

该数据集专注于个人工作信息（PWI）的识别与脱敏，其核心价值体现在三方面：标签体系精准覆盖12类工作场景敏感信息（如薪资、职位、税号等），满足GDPR、HIPAA等多国合规需求；多语言支持能力突出，尤其包含印度市场关键语言；数据结构设计兼顾实用性与隐私保护，掩码文本与原始标注分离存储。预览版本虽仅展示基础功能，但完整商业版本提供细粒度标注、跨语言对齐及企业级定制服务，适用于医疗、金融等垂直领域的隐私计算场景。

使用方法

该预览数据集主要用于评估数据结构和标签体系的适用性，用户可通过解析JSONL文件获取掩码文本及语言元数据。实际应用需结合完整版本，其提供原始文本与隐私掩码的字符级标注，支持序列标注模型训练（如BERT-CRF）和生成式脱敏任务。企业用户可通过官方渠道获取完整数据集，并利用其多语言特性构建符合区域合规要求的自动化脱敏系统，特别注意实验性语言数据需进行额外验证。商业使用时需严格遵守数据许可协议，确保符合目标市场的隐私监管要求。

背景与挑战

背景概述

EPII Personal Work Information (PWI) Masking 100k Preview Dataset由Ai4Privacy团队于2025年发布，旨在解决企业环境中敏感个人工作信息（PWI）的识别与匿名化问题。该数据集专注于支持多语言文本中的PII检测与掩码技术，尤其针对GDPR、CCPA等数据保护法规的合规需求。作为商业数据集的前瞻版本，其预览样本展示了12类PWI标签的标注体系，覆盖8种语言（含实验性支持的印地语和泰卢固语），为隐私保护AI领域提供了重要的基准资源。数据集的设计反映了企业对工作场景下隐私数据处理的特殊要求，包括薪酬、职位信息等敏感字段的匿名化需求。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题层面，工作场景下的PII识别需平衡语义粒度与隐私保护的矛盾，如区分'JOBTITLE'与'JOBTYPE'的语义边界；多语言支持中印欧语系与达罗毗荼语系的标注一致性也构成技术难点。构建过程方面，合规性要求导致真实数据获取受限，需人工合成符合法规的模拟数据；而12类PWI标签体系的建立需要兼顾法律条文的技术转化与实际业务场景的适配性，特别是'SALARY'等动态数据的标注规范制定。实验性语言的标注质量控制，以及商业数据集与开源生态的兼容性设计，均为持续优化的方向。

常用场景

经典使用场景

在隐私保护与合规性要求日益严格的背景下，EPII PWI Masking数据集为多语言环境下的敏感工作信息识别与掩码提供了标准化解决方案。该数据集特别适用于金融、医疗等高度监管行业，通过标注12类个人工作信息实体，支持模型在日志处理、邮件审核等场景中精准识别并脱敏薪资、职位等敏感字段，满足GDPR等法规对数据匿名化的技术要求。

衍生相关工作

该数据集催生了PrivacyBERT等预训练模型的优化，微软研究院据此提出动态掩码比例调整算法。在ACL 2024会议上，基于此数据集的多任务学习框架获得最佳论文提名，其提出的分层标注方法已被纳入ISO/IEC 27557隐私工程标准草案。

数据集最近研究