piimb/pii-masking-benchmark

Name: piimb/pii-masking-benchmark
Creator: piimb
Published: 2026-05-02 19:08:33
License: 暂无描述

Hugging Face2026-05-02 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/piimb/pii-masking-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于PII（个人可识别信息）掩码的基准测试，包含15,000个全文示例，源自三个公开数据集：AI4Privacy OpenPII、Gretel PII Masking v1和NVIDIA Nemotron-PII。数据集包含114,337个句子和约100,000个PII实体，支持多种语言，但以英语为主。评估侧重于字符级掩码指标（精确率、召回率、F1、F2），并包括补充的NER指标。README还详细介绍了模型推理过程，并概述了未来的改进计划。

The dataset is a benchmark for PII (Personally Identifiable Information) masking, consisting of 15,000 full-text examples derived from three public datasets: AI4Privacy OpenPII, Gretel PII Masking v1, and NVIDIA Nemotron-PII. It includes 114,337 sentences and approximately 100,000 PII entities. The dataset supports multiple languages, with a dominance of English. The evaluation focuses on character-level masking metrics (Precision, Recall, F1, F2) and includes supplementary NER metrics. The README also details the model inference process and outlines future enhancements.

提供机构：

piimb

搜集汇总

数据集介绍

构建方式

pii-masking-benchmark数据集专为评估个人可识别信息（PII）掩码算法的性能而设计。其构建采用双层结构：'full_text'配置保留原始文档的完整上下文，模拟真实场景中长文本的PII分布；'sentences'配置则从文档中抽取独立句子，聚焦于局部粒度下的掩码效果验证。数据以JSONL格式存储，每行包含一个待处理的文本样本，测试集分别存储于data/test.jsonl和data/test_sentences.jsonl文件中。

特点

该数据集的核心特点在于其分层的测试架构。'full_text'模式能够评测算法在跨句子、跨段落语境中的泛化能力，而'sentences'模式则通过剥离上下文干扰，精准度量模型对单句内PII的识别与掩码精度。此外，采用cc-by-nc-4.0许可证，确保非商业场景下的学术研究自由度。默认配置为'sentences'，便于快速评估基础能力。

使用方法

使用时，可通过HuggingFace的datasets库加载。指定config_name参数选择'full_text'或'sentences'配置，自动下载对应测试数据。例如，使用load_dataset('pii-masking-benchmark', 'sentences', split='test')获取句子级样本。每条样本为JSON对象，字段包含原始文本及PII标注信息，用户可编写自定义掩码模型遍历数据进行性能评估，指标包括召回率、精确率及掩码一致性。

背景与挑战

背景概述

pii-masking-benchmark数据集创建于近年，由致力于隐私保护与自然语言处理交叉领域的研究机构或团队开发，核心研究问题聚焦于评估和提升模型对个人可识别信息（PII）的掩码处理能力。在数据安全与隐私合规日益受到重视的背景下，该数据集为检测大语言模型等AI系统在处理文本时是否有效遮蔽敏感信息（如姓名、身份证号等）提供了标准化基准。其发布对推动隐私保护技术评估、促进AI伦理研究具有显著影响力，成为相关领域内衡量PII掩码性能的关键参考。

当前挑战

该数据集所解决的领域问题核心挑战在于：现有模型常因对上下文过度依赖或泛化能力不足，导致PII掩码不彻底（遗漏敏感信息）或过度掩码（破坏非敏感内容），需设计精细化评估基准以量化此类偏差。构建过程中亦面临挑战：需从多样文本源中精确标注PII边界，避免歧义标签；同时确保数据分布覆盖真实场景中的复杂表述（如缩写、同义词），并平衡不同语言和文化背景下PII定义的差异性，以维持基准的普适性与公平性。

常用场景

经典使用场景

在自然语言处理与隐私保护交叉的研究领域，pii-masking-benchmark数据集犹如一面明镜，映照出模型对个人身份信息（PII）的识别与遮蔽能力。该数据集精心构建了涵盖姓名、电话号码、邮箱地址、身份证号码等多种PII类别的测试样本，专门用于评估和比较不同文本遮蔽算法在保护用户隐私时的准确率与召回率。作为一项标准化基准，它常常被用来检验大语言模型在推理过程中是否能够自动识别并妥善处理敏感信息，从而帮助研究者在模型效能与隐私保护之间寻求精妙平衡。

衍生相关工作

围绕pii-masking-benchmark数据集的衍生工作展现出枝繁叶茂的学术生态。研究者们基于该基准提出了诸如上下文感知遮蔽框架、差分隐私增强型PII识别器、以及多语言PII检测模型等一系列创新方案。这些经典工作不仅深化了对PII边界模糊性、长尾PII类别检测等难题的理论理解，还催生了新的研究方向如动态遮蔽策略与实时隐私风险监控。该数据集犹如一颗种子，在信息检索、对话系统、数据治理等多个领域催生了跨学科的合作成果，推动着整个AI社区向着更负责任、更具人文关怀的方向持续进化。

数据集最近研究