personal-information-prompts

Hugging Face2025-11-30 更新2025-12-01 收录

隐私保护

自然语言处理

数据链接：

https://huggingface.co/datasets/agentlans/personal-information-prompts 数据链接链接失效反馈

官方服务：

资源简介：

这个数据集包含了从 WildChat 数据集的 all_sample 子集中提取并重写为包含人工插入的个人识别信息（PII）的多语言提示。每个提示都使用 Faker Python 包随机生成不同区域的 PII，并使用 google/gemma-3-12b-it 模型进行重写。数据集分为两个配置：classification 和 customized_prompts，前者是从后者派生并分为训练和测试数据。

This dataset comprises multilingual prompts extracted and rewritten from the all_sample subset of the WildChat dataset, which incorporate manually inserted Personally Identifiable Information (PII). For each prompt, regionally diverse PII is randomly generated using the Faker Python package, and the prompts are rewritten via the google/gemma-3-12b-it model. The dataset is divided into two configurations: classification and customized_prompts. The former is derived from the latter and split into training and test subsets.

创建时间：

2025-11-30

原始信息汇总

Personal Information Prompts 数据集概述

数据集基本信息

许可证: Creative Commons Attribution 4.0
任务类别: 文本分类
标签: PII、隐私、提示词、WildChat
语言: 多语言（支持65种语言）

数据来源

基于agentlans/allenai-WildChat-4.8M数据集的all_sample子集构建

数据生成方法

使用Faker Python包为不同地区随机生成人工可识别信息(PII)
使用google/gemma-3-12b-it模型将合成个人数据整合到重写的提示词中

配置说明

classification配置

数据文件: train.jsonl.zst, test.jsonl.zst
数据划分: 80%训练集，20%测试集
字段说明:
- prompt: 可能包含PII的提示词
- language: 检测到的提示词语言
- private: 提示词构建是否使用了PII

customized_prompts配置

数据文件: customized_prompts.jsonl.zst
字段说明:
- prompt: 包含人工个人数据的提示词文本
- pii: 用于生成的PII字典
- base_prompt: WildChat数据集中的原始提示词
- pii_locale: 生成PII使用的地区设置
- prompt_language: 重写提示词的语言（使用FastText确定）

局限性

除基础提示词外，所有信息均为随机生成
不适合用于提取PII，部分PII以异常方式嵌入到外语文本中
并非所有PII都被整合到提示词中

搜集汇总

数据集介绍

构建方式

在隐私保护技术研究领域，personal-information-prompts数据集通过系统化流程构建而成。其基础源自WildChat数据集的all_sample子集，采用Faker工具包针对不同语言区域生成随机合成的个人可识别信息。这些人工构造的PII数据通过gemma-3-12b-it模型被自然嵌入到原始对话提示中，形成包含模拟隐私数据的多语言文本。数据划分采用科学规范的拆分策略，将定制化提示配置按80%训练集与20%测试集的比例进行分配，确保模型训练与评估的有效性。

特点

该数据集最显著的特征在于其多语言覆盖广度与隐私数据模拟的真实性。支持包括中文、英文、法文等超过50种语言变体，每个提示文本均附带完整的元数据标注，包含PII字典、原始提示内容及生成区域设置。通过FastText语言检测技术精确标识提示文本的语言属性，同时提供明确的隐私标记字段，便于区分析含人工隐私数据的样本。数据构造特别注重语义连贯性，使合成的个人信息能够自然融入对话语境，为隐私保护模型提供高质量的训练素材。

使用方法

研究人员可通过两种配置模式灵活运用该数据集。分类配置适用于隐私检测模型的训练与评估，其中明确的二分类标签可直接用于监督学习任务。定制化提示配置则为隐私保护策略研究提供丰富素材，包含完整的PII生成轨迹与语言背景信息。使用前需注意数据集的固有特性，部分合成信息可能因语言转换产生非常规表达，且并非所有生成内容都完整包含预设的隐私元素。该数据集遵循知识共享许可协议，确保在符合规范的前提下支持各类隐私计算与自然语言处理研究。

背景与挑战

背景概述

在人工智能与隐私保护交叉研究领域，personal-information-prompts数据集于2024年由自然语言处理研究者构建，其核心目标在于解决对话系统中个人身份信息识别的敏感性问题。该数据集基于WildChat对话语料库，通过多语言合成技术将模拟个人数据嵌入真实对话场景，为隐私保护模型训练提供标准化基准。其创新性地采用Faker库生成跨文化语境的人工身份信息，显著推动了隐私感知型语言模型的研发进程，对构建符合GDPR等国际隐私标准的AI系统具有重要指导意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需精准平衡语义连贯性与隐私信息隐匿性，解决多语言环境下PII实体边界模糊、文化特定表达差异等识别难题；在构建过程中，既要确保合成数据与原始语境的自然融合，又需克服Gemma模型重写时可能出现的语义失真问题。此外，跨语言PII嵌入的一致性维护与FastText语言检测的误差控制，均为数据集质量保障的关键瓶颈。

常用场景

经典使用场景

在隐私保护与自然语言处理交叉领域，personal-information-prompts数据集通过合成多语言个人身份信息（PII）的提示文本，为模型训练与评估提供了标准化测试环境。其典型应用聚焦于文本分类任务，通过标注提示中是否包含PII的二元标签，系统化构建了隐私泄露风险的检测框架。该设计使得研究人员能够量化分析语言模型在处理敏感信息时的行为模式，为构建隐私友好的AI系统奠定数据基础。

实际应用

在实际部署层面，该数据集支撑了对话系统隐私过滤器的开发与优化。基于其构建的分类模型可集成至在线服务接口，实时检测用户输入中的敏感信息并触发脱敏处理。在金融客服、医疗咨询等高风险场景中，此类技术能显著降低机构的数据合规风险，同时保障用户隐私权益，体现了理论研究向产业实践转化的重要价值。

衍生相关工作

以该数据集为基石的研究催生了系列创新工作，包括基于提示工程的隐私增强学习方法、跨语言PII检测模型的迁移学习框架等。部分研究通过分析Gemma模型重构提示的规律，揭示了大型语言模型对敏感信息的处理机制。这些衍生成果不仅丰富了隐私计算理论体系，更推动了如微软Presidio、谷歌DLP等实际隐私保护工具的技术迭代。

以上内容由遇见数据集搜集并总结生成