ai4privacy/pii-masking-65k
收藏Hugging Face2026-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4privacy/pii-masking-65k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集的主要目的是从文本中移除个人身份信息(PII),特别是在AI助手和大型语言模型(LLMs)的上下文中。数据集包含约43,000条观察数据,每条数据以包含PII占位符的自然语言句子开始,并用模拟的个人信息填充这些占位符。数据集涵盖了多种PII出现的上下文,包括商业、心理学和法律领域,以及五种交互风格。数据集还支持多种语言,并经过人工验证以确保高质量。
The primary objective of this dataset is to eliminate personally identifiable information (PII) from textual content, specifically within the context of AI assistants and large language models (LLMs). This dataset comprises approximately 43,000 observations, where each entry begins with a natural language sentence that includes PII placeholders, and these placeholders are populated with simulated personal information. The dataset covers diverse contexts where PII may appear, including business, psychology, and legal domains, alongside five interaction styles. Additionally, it supports multiple languages and has undergone manual validation to ensure high data quality.
提供机构:
ai4privacy
原始信息汇总
数据集概述
数据集目的与特征
- 目的:用于从文本中移除个人身份信息(PII),特别是在AI助手和大型语言模型(LLMs)的背景下。
- 模型:基于“Distilled BERT”进行微调,用于令牌分类任务,模型大小为6200万参数,原始大小268MB,压缩后为43MB。
- 数据集组成:约43,000个观察,每个观察包含一个包含PII占位符的自然语言句子,随后填充模拟的个人信息并使用BERT令牌器进行令牌化。
- 覆盖范围:涉及125个讨论主题/用例,跨越商业、心理学和法律领域,以及5种交互风格。
数据集详细信息
- 数据量:当前包含560万令牌,其中65,000个PII示例。
- 语言支持:多语言,包括英语、法语、德语和意大利语。
- 数据质量:通过人机交互验证的高质量数据集,使用专有算法生成的合成数据。
- 技术框架:基于PyTorch,采用8位量化。
数据集版本
- 原始发布:
PII43k_original.jsonl - 新发布:
- 英语平衡版:
english_balanced_10k.jsonl - 法语平衡版:
french_balanced_5k.jsonl - 德语平衡版:
german_balanced_3k.jsonl - 意大利语平衡版:
italian_balanced_3k.jsonl
- 英语平衡版:
数据集应用场景
- 聊天机器人
- 客户支持系统
- 电子邮件过滤
- 数据匿名化
- 社交媒体平台
- 内容审核
- 在线表单
- 协作文档编辑
- 研究和数据共享
- 内容生成
数据集维护与支持
- 项目隶属:AI4Privacy项目隶属于AISuisse SA。
搜集汇总
数据集介绍

构建方式
在隐私保护与自然语言处理的交叉领域,pii-masking-65k数据集的构建体现了系统化的工程方法。该数据集以约43,000条观察记录为基础,每条记录均以包含个人可识别信息占位符的自然语言句子起始,这些句子模拟了用户向人工智能助手提问的典型场景。随后,通过专有算法生成的合成数据填充占位符,并利用BERT分词器进行分词处理,最终对对应PII的标记进行标注,形成训练模型的真实标签。这一过程融合了人类参与循环验证,确保了数据的高质量与可靠性。
特点
该数据集在隐私匿名化任务中展现出多维度特征。其覆盖了商业、心理学与法律三大领域的125种讨论主题与使用场景,并包含五种交互风格,如日常对话与正式文档等。数据集支持英语、法语、德语及意大利语等多语言环境,囊括约58种敏感数据类型,对应117个标记类别。尤为突出的是,新版发布通过平衡各PII类别的标记分布,显著改善了早期版本中类别覆盖不均的问题,从而提升了模型训练的全面性与泛化能力。
使用方法
数据集的应用方法紧密贴合实际部署需求。用户可通过加载提供的JSONL格式文件,如针对英语的平衡版本english_balanced_10k.jsonl,直接接入基于DistilBERT微调的标记分类模型。该模型已适配PyTorch、TensorFlow及TensorFlow.js框架,并经过8位量化压缩至43MB,便于集成到聊天机器人、客户支持系统或电子邮件过滤等场景中,实现实时PII检测与掩码。研究人员亦可利用其进行数据匿名化评估或多语言隐私保护基准测试,推动隐私增强技术的发展。
背景与挑战
背景概述
在人工智能助手与大型语言模型日益普及的背景下,个人可识别信息的隐私保护成为亟待解决的核心问题。pii-masking-65k数据集由AI4Privacy项目团队于近期构建并发布,旨在为自然语言处理中的PII掩码任务提供高质量的训练资源。该数据集依托p5y隐私框架,采用合成数据生成与人工验证相结合的策略,覆盖商业、法律及心理学等多个领域,包含约4.3万条多语言文本样本,涉及125种使用场景与58类敏感数据类型。其基于DistilBERT的轻量化模型设计,显著提升了隐私信息识别的效率与可部署性,为跨行业的数据匿名化实践奠定了重要基础。
当前挑战
该数据集致力于解决自然语言处理中个人可识别信息的自动检测与掩码问题,其核心挑战在于如何精准识别多样化、跨语言的PII实体,并适应不同文体与领域的表达差异。在构建过程中,研究团队面临样本分布不均衡的难题,初始版本仅聚焦少数PII类别,导致模型对罕见实体类型的识别性能受限。此外,合成数据的真实性验证、多语言标注的一致性维护,以及隐私保护与数据效用间的平衡,均为数据集构建的关键技术障碍。后续版本通过平衡化策略优化了类别分布,仍需在泛化能力与计算效率间寻求进一步突破。
常用场景
解决学术问题
该数据集解决了隐私保护领域中数据稀缺和标注质量不足的学术问题。通过提供大规模、多语言且经过人工验证的高质量PII标注数据,它支持了令牌分类模型的训练,促进了隐私保护算法的创新。其平衡的令牌分布设计克服了传统数据集中类别不平衡的局限,为研究PII检测的泛化性和鲁棒性提供了可靠基础,推动了隐私计算与自然语言处理的交叉研究,对构建可信赖的人工智能系统具有深远意义。
衍生相关工作
基于pii-masking-65k数据集,衍生了一系列经典研究工作,包括对DistilBERT模型的微调优化,以及多语言PII检测基准的建立。这些工作扩展了隐私保护模型的应用范围,例如开发更轻量化的量化模型以提升部署效率。同时,数据集支撑了p5y框架的标准化隐私处理流程,促进了隐私风险评估和匿名化技术的进步,为后续的隐私增强技术和合规性工具开发奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



