guardrails-ru-scanpatch-pii-ner-controlled-v1

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/antimatter-ai/guardrails-ru-scanpatch-pii-ner-controlled-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从 'scanpatch/pii-ner-corpus-synthetic-controlled' 派生而来的 Guardrails 评估数据集，主要用于测试 Cyrillic-heavy PII 检测、嵌套/重叠实体结构处理以及网络密集型提取的鲁棒性。数据集包含标准化的规范标签，并采用 'full' 和 'fast' 两种分割策略。数据内容包括俄语（ru）和乌克兰语（uk）的混合文本，涵盖了多种实体类型，如 person、organization、location、phone、email、ip、date 和 identifier。数据集提供了丰富的元数据，如 script_profile（mostly_cyrillic、mostly_latin、mixed、no_letters）和 lang_bucket（ru_or_mixed_cyr、uk_likely、latin_only、unknown），并详细记录了实体数量和分布情况。推荐将 fast 分割用于频繁的回归测试，full 分割用于定期深度检查，并跟踪 core_pii、network_heavy、negative 等关键切片。

This is a Guardrails evaluation dataset derived from 'scanpatch/pii-ner-corpus-synthetic-controlled'. It is primarily developed to evaluate the robustness of PII detection for Cyrillic-heavy text, nested/overlapping entity structure processing, and network-intensive extraction. The dataset features standardized canonical labels and offers two splitting strategies: 'full' and 'fast'. It includes mixed text in Russian (ru) and Ukrainian (uk), covering a wide range of entity types such as person, organization, location, phone, email, ip, date, and identifier. The dataset provides rich metadata including script_profile (mostly_cyrillic, mostly_latin, mixed, no_letters) and lang_bucket (ru_or_mixed_cyr, uk_likely, latin_only, unknown), and comprehensively documents the quantity and distribution of entities. It is recommended to use the 'fast' split for frequent regression testing and the 'full' split for periodic in-depth inspections, as well as to track key slices including core_pii, network_heavy, and negative.

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在个人信息保护领域，该数据集源自scanpatch/pii-ner-corpus-synthetic-controlled，通过标准化处理构建而成。构建过程首先将原始标签规范化为八个评估类别，包括人物、组织、位置、电话、电子邮件、IP地址、日期和标识符。随后保留原始文本，并将实体转换为跨度列表存储在privacy_mask字段中。通过去除完全相同的规范跨度重复项，同时保留原始嵌套别名信息，确保了数据的唯一性。此外，数据集添加了脚本分布和语言分桶等元数据切片，并采用完整与快速两种拆分策略，快速子集在保持负样本比例和最小标签覆盖的前提下，实现了确定性抽样。

特点

该数据集专为西里尔字母密集的俄语和乌克兰语环境设计，侧重于检测嵌套或重叠的实体结构，对网络密集型实体如IP地址具有强鲁棒性。数据集中包含大量负样本行，即无实体标注的文本，可用于模型行为验证。其标注体系采用规范化标签，同时保留原始标签信息，支持细粒度分析。通过脚本分布和语言分桶等元数据，用户能够针对不同文本特征进行切片评估，从而全面检验模型在复杂场景下的性能表现。

使用方法

在模型评估流程中，建议将本数据集作为压力测试基准，而非唯一评估标准。快速拆分适用于频繁的回归测试循环，完整拆分则用于周期性的深度验证。评估时应重点关注核心个人信息、网络密集型实体、负样本以及不同脚本分布等关键切片。由于数据集中存在嵌套和重叠实体结构，推荐优先使用字符或词元级别的规范指标进行稳定性评估，并将精确跨度指标作为辅助信号。通过跟踪这些切片的性能变化，可以有效监控模型在多样化场景下的鲁棒性。

背景与挑战

背景概述

在自然语言处理领域，个人身份信息识别任务对隐私保护至关重要。guardrails-ru-scanpatch-pii-ner-controlled-v1数据集由Guardrails项目于2026年2月16日创建，源自scanpatch/pii-ner-corpus-synthetic-controlled语料库。该数据集专注于俄语和乌克兰语混合文本中的实体识别，旨在解决西里尔字母密集型文本中个人身份信息的自动化检测问题。其核心研究目标在于构建一个能够评估模型在复杂语言环境下性能的基准测试集，尤其关注嵌套实体结构与网络协议信息的提取鲁棒性，为多语言隐私信息处理系统的开发提供关键数据支撑。

当前挑战

该数据集所针对的个人身份信息识别领域面临多重挑战：西里尔字母与拉丁字母混合文本导致字符编码与分词复杂性增加；嵌套与重叠实体结构要求模型具备更精细的边界识别能力；网络协议、日期等多样化实体格式对模型的泛化性能构成考验。在构建过程中，挑战主要体现在原始标签的规范化映射、跨脚本语言分布的平衡采样，以及如何在保留原始嵌套注释的同时消除重复标注，确保数据集的评估一致性与统计代表性。

常用场景

经典使用场景

在隐私保护与信息安全领域，该数据集作为压力测试基准，专门用于评估命名实体识别模型在复杂场景下的鲁棒性。其经典使用场景聚焦于西里尔字母主导的俄语与乌克兰语混合文本中，对个人身份信息进行精确检测与标注。数据集通过模拟真实世界中的嵌套与重叠实体结构，以及网络密集型信息如IP地址的提取，为模型提供了极具挑战性的评估环境，从而验证模型在跨语言、跨脚本环境下的泛化能力与稳定性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在隐私保护评估框架的扩展与优化。例如，基于其分片策略与标注标准，研究者开发了针对特定脚本剖面（如混合西里尔字母）的模型微调方法，以及用于处理嵌套实体的新型序列标注架构。此外，该数据集常被用作Guardrails等评估工具链的组成部分，催生了多项关于跨语言实体识别鲁棒性度量、负样本行为分析以及合成数据质量验证的相关研究。

数据集最近研究