guardrails-ru-meddies-pii-cleaned-v1

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/antimatter-ai/guardrails-ru-meddies-pii-cleaned-v1

下载链接

链接失效反馈

官方服务：

资源简介：

guardrails_ru_meddies_pii_cleaned_v1 是一个从 'Meddies/meddies-pii-cleaned-v1' 派生的评估数据集，专门用于扩展 Guardrails 在俄语和英语 PII（个人身份信息）掩码、结构化及半结构化文本格式（如纯文本、JSON/XML、HL7/FHIR 等）以及统一模式下的跨度级偏移验证方面的评估覆盖范围。数据集包含 97,057 条有效行（俄语 49,391 条，英语 47,666 条），分为 'full'（全部数据）和 'fast'（20,000 条平衡子集）两个版本。数据字段包括源文本（source_text）、隐私掩码（privacy_mask，包含起始位置、结束位置、标签、源标签和值）、语言（ru 或 en）、文档类型、长度、格式等元数据，以及源数据索引和版本信息。该数据集适用于俄语和英语 PII 掩码召回检查、跨临床/结构化文档风格的格式鲁棒性回归检查，以及多语言语料库中的偏移完整性验证。建议将 'fast' 子集用于频繁的 CI 和模型迭代循环，'full' 子集用于发布门控和定期深度评估。

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在医疗信息脱敏领域，guardrails-ru-meddies-pii-cleaned-v1数据集通过对上游数据集Meddies/meddies-pii-cleaned-v1进行系统化衍生处理而构建。该过程首先筛选出俄语和英语子集，并仅保留包含至少一个有效标记实体的文本行，同时剔除了标签格式不规范或损坏的数据条目。随后，通过专用脚本将源数据中内联的标记格式转换为标准化的跨度标注结构，生成了包含明文文本及精确偏移位置与规范标签的隐私掩码列表。最终形成了包含97,057条合格样本的完整集合，并额外创建了一个经过平衡采样、包含20,000条样本的快速子集，以支持不同粒度的评估需求。

特点

该数据集的核心特征在于其专注于俄语和英语环境下的个人身份信息脱敏评估，覆盖了从纯文本到JSON/XML、HL7/FHIR等结构化或半结构化的临床文档格式。数据集中每条记录均提供了标准化的跨度级标注，明确标注了各类实体在文本中的起始与结束位置，并映射至统一的规范标签体系，如将地址映射为ADDRESS、将人名映射为HUMAN_NAME等。此外，数据集保留了丰富的元数据，包括文档类型、长度、格式以及完整的数据溯源信息，便于研究者根据特定场景进行数据切片与分析，为评估模型在不同文本格式和语言下的鲁棒性提供了坚实基础。

使用方法

该数据集主要用于评估隐私保护模型在俄语和英语文本中对个人身份信息的识别与掩码召回能力，尤其适合检验模型在处理多样化临床及结构化文档格式时的稳健性。建议将快速子集用于频繁的持续集成和模型迭代循环，而完整子集则适用于发布前的深度评估与质量门控。在实际应用中，应将其与通用领域数据集以及包含大量无个人身份信息文本的数据集配合使用，以构建全面的评估体系，避免因本数据集阳性样本占比较高而可能导致的假阳性测试不足问题。

背景与挑战

背景概述

在自然语言处理领域，隐私信息识别与脱敏是保障数据安全与合规性的核心任务，尤其在医疗健康等敏感信息密集的领域。guardrails-ru-meddies-pii-cleaned-v1数据集由Guardrails项目于2026年2月16日创建，基于Meddies/meddies-pii-cleaned-v1上游数据集派生而来，旨在扩展俄语与英语环境下个人可识别信息的评估覆盖范围。该数据集聚焦于结构化与半结构化文本格式中的隐私实体标注，通过标准化跨度注释为模型验证提供统一基准，推动了多语言隐私保护技术在临床文档等复杂场景中的应用。

当前挑战

该数据集致力于解决医疗文本中多语言个人可识别信息识别的挑战，包括在俄语和英语混合语料中准确检测地址、姓名、日期等实体，并确保在不同文档格式下的模型鲁棒性。构建过程中，研究人员面临数据清洗与标注标准化的难题，例如需过滤无标签或标签格式异常的行，并将原始标记转换为明确的跨度偏移表示。此外，平衡语言分布与稀有标签采样以构建评估子集，也增加了数据处理的复杂性。

常用场景

经典使用场景

在医疗数据隐私保护领域，guardrails-ru-meddies-pii-cleaned-v1数据集为俄语和英语环境下的个人身份信息（PII）掩码评估提供了标准化基准。该数据集通过统一的跨度标注格式，支持对结构化与非结构化文本中PII实体（如地址、姓名、电话号码）的自动识别与掩码效果进行系统性验证。其经典使用场景聚焦于评估隐私保护模型在临床文档、HL7/FHIR格式数据等复杂医疗文本中的鲁棒性，确保模型能够跨语言和文本格式准确处理敏感信息。

实际应用

在实际应用中，该数据集被广泛用于医疗信息系统和健康数据平台的隐私保护组件测试。例如，在电子健康记录（EHR）系统的开发中，工程师利用该数据集验证PII自动掩码模块对俄语和英语临床文档的处理准确性，确保系统符合GDPR等数据保护法规的要求。此外，它也为跨机构医疗数据协作中的匿名化流程提供了评估工具，帮助降低数据泄露风险。

衍生相关工作

基于该数据集衍生的经典工作主要集中在隐私保护模型的评估框架与跨语言迁移学习方面。例如，研究者利用其标准化标注开发了针对医疗文本的PII检测基准测试套件，如集成到Guardrails评估平台中的多格式验证模块。同时，该数据集也支撑了多项关于低资源语言（如俄语）隐私保护技术的研究，促进了掩码模型在非英语医疗环境中的适配与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集