DataikuNLP/kiji-pii-training-data

Name: DataikuNLP/kiji-pii-training-data
Creator: DataikuNLP
Published: 2026-05-07 01:16:52
License: 暂无描述

Hugging Face2026-05-07 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/DataikuNLP/kiji-pii-training-data

下载链接

链接失效反馈

官方服务：

资源简介：

Kiji PII检测训练数据是一个合成的多语言数据集，用于训练具有令牌级实体注释和共指消解的PII（个人可识别信息）检测模型。数据集包含51,495个样本（训练集46,345，测试集5,150），涵盖6种语言（英语、丹麦语、荷兰语、法语、西班牙语、德语）和20个国家。标注了26种PII实体类型，总计397,441个实体注释（平均每个样本7.7个）。每个样本包含自然语言文本、PII实体注释、共指消解簇、文本语言和国家上下文。数据集适用于令牌分类任务，特别是命名实体识别（NER）和共指消解。数据通过LLM生成，包含结构化输出，但均为合成数据，可能不完全反映真实世界文本的实体分布。

Synthetic multilingual dataset for training PII (Personally Identifiable Information) detection models with token-level entity annotations and coreference resolution. The dataset contains 51,495 samples (train: 46,345, test: 5,150) across 6 languages (English, Danish, Dutch, French, Spanish, German) and 20 countries. It features 26 PII entity types with 397,441 total entity annotations (avg 7.7 per sample). Each sample includes natural language text with embedded PII, entity annotations, coreference clusters, language, and country context. Designed for token-classification tasks (NER and coreference resolution), the data is synthetically generated using LLMs with structured outputs, though it may not perfectly match real-world entity distributions.

提供机构：

DataikuNLP

搜集汇总

数据集介绍

构建方式

该数据集采用大规模语言模型（LLM）与结构化输出相结合的合成数据生成管线构建。流程首先通过LLM生成嵌入个人身份信息的自然语言文本及实体标注，随后进行第二遍处理以链接代词和指称到其先行实体形成共指簇，最后经可选的LLM验证环节对标注进行修正与质量控制。所有样本被转换为统一的标准化格式，共计包含51495条样本，覆盖6种语言和20个国家背景，平均每条样本包含7.7个实体标注。

特点

数据集覆盖26种个人身份信息实体类型，包括姓名、地址、证件号、金融账户等关键隐私类别，标注总量近40万条。其显著特色在于融合了共指消解标注，使得模型能够识别并关联同一实体的不同提及方式。多语言与多国背景的并行设计确保了地址、身份证件等格式的地域多样性，为开发具有泛化能力的隐私检测模型提供了坚实的数据基础。

使用方法

用户可通过HuggingFace Datasets库直接加载该数据集。每条样本包含文本字段、隐私掩码标注列表（含实体文本片段与标签）、共指集群信息以及语言和国家标签。适用于构建基于token级别的命名实体识别模型，尤其面向隐私保护场景下的个人身份信息检测任务。共指标注部分则可进一步支持实体链接与指代消解模型的训练，提升对文本中隐私信息的全面感知能力。

背景与挑战

背景概述

在数字时代，个人身份信息（PII）的泄露已成为隐私保护领域的核心挑战，推动着自然语言处理技术在敏感数据检测方向上的发展。为此，Dataiku NLP团队于近年创建了Kiji PII Detection Training Data，一个面向多语种、多国家的合成PII检测训练数据集。该数据集由51,495个样本构成，覆盖英语、丹麦语等六种语言和20个国家，包含26种PII实体类型及近40万条标注，由大型语言模型通过结构化输出流水线自动生成，并辅以共指解析标注。其核心研究问题在于：如何利用合成数据高效训练能够识别和分类多样化PII实体的命名实体识别模型，以应对隐私合规与数据脱敏的迫切需求。这一数据集的发布填补了跨语言、跨地域PII检测训练资源匮乏的空白，为隐私保护技术的泛化能力研究提供了重要支撑。

当前挑战

该数据集所面对的领域挑战主要体现在多语种与跨地域PII格式的复杂性上，例如地址、身份证号等实体在不同国家间存在显著差异，致使模型需同时掌握语言多样性与格式特异性。构建过程中则面临合成数据的真实性与偏见问题：由LLM生成的实体分布可能偏离现实场景，导致模型存在分布外泛化风险；共指解析标注亦受限于自动化质量，可能出现错误关联或遗漏。此外，如何在有限的文本长度内模拟完整的PII上下文，以及确保26种实体类别间的平衡与覆盖度，同样是数据生成阶段亟待解决的困难。这些挑战共同制约着模型在敏感隐私数据检测任务上的鲁棒性与实用价值。

常用场景

经典使用场景

在隐私保护与自然语言处理的交叉领域，Kiji PII检测训练数据集为训练基于token分类的命名实体识别模型提供了高质量的合成多语言语料。其经典使用场景涵盖从非结构化文本中精确识别并标注26种个人身份信息实体，如姓名、地址、证件号码及财务账户信息。数据集包含近5.2万个样本，覆盖六种语言和二十个国家地区的格式规范，尤其适用于构建具备跨语言与跨国别适应能力的PII检测系统，助力企业合规化处理用户文本数据。

衍生相关工作

围绕Kiji数据集衍生了一系列经典工作，包括基于Transformer的跨语言PII检测模型架构优化，如将指代消解信号融入BERT的序列标注头以提升长文档实体链接精度。研究者还利用其多标签平衡特性，开发了针对稀有实体类别的数据增强与对比学习框架。此外，该数据集催生了面向合成数据质量评估的基准测试，推动LLM生成文本的噪声标注校正策略研究，并为后续如DocPII、MultiPII等更大规模多领域隐私数据集的构建提供了方法论基石。

数据集最近研究