pii_dataset_bg

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/StefanBebrevski/pii_dataset_bg

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了原始文本(source_text)、被遮蔽的文本(masked_text)、隐私遮蔽信息(privacy_mask，包含标签、值、起始和结束位置)、语言环境(locale)、语言(language)、数据集分割类型(split)、唯一标识符(uid)以及Transformer模型相关输入字段(input_ids、token_type_ids、attention_mask、special_tokens_mask)。此外，还包含了用于训练的标签(labels)。数据集分为训练集(train)，共有2845个样本，总大小为4963556字节。

创建时间：

2025-07-24

原始信息汇总

数据集概述

基本信息

许可证: MIT
数据集名称: StefanBebrevski/pii_dataset_bg
下载大小: 1001203字节
数据集大小: 4963556字节

数据集结构

特征

source_text: 字符串类型，原始文本
masked_text: 字符串类型，掩码后的文本
privacy_mask: 列表类型，包含以下子特征：
- label: 字符串类型，隐私标签
- value: 字符串类型，隐私值
- start: int64类型，起始位置
- end: int64类型，结束位置
locale: 字符串类型，地区信息
language: 字符串类型，语言信息
split: 字符串类型，数据集划分
uid: int64类型，唯一标识符
input_ids: int32列表类型，输入ID
token_type_ids: int8列表类型，令牌类型ID
attention_mask: int8列表类型，注意力掩码
special_tokens_mask: int8列表类型，特殊令牌掩码
labels: 字符串列表类型，标签

数据划分

train:
- 样本数量: 2845
- 字节大小: 4963556字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在隐私信息识别领域，pii_dataset_bg数据集通过系统化的数据采集与标注流程构建而成。原始文本数据经过专业处理，采用双层标注体系标记敏感信息，既保留原始语境又生成掩码版本。标注过程中严格遵循隐私保护准则，每个实体均标注起止位置、类型及取值，并辅以语言区域和文本分割标识，确保数据结构完整且可追溯。

特点

该数据集最显著的特征在于其多维度的隐私信息标注体系，不仅包含原始文本与掩码文本的平行语料，还提供细粒度的实体标签和位置信息。独特的token级编码设计融合了输入标识、注意力掩码等深度学习所需元素，支持端到端的模型训练。数据覆盖多种语言环境，样本量分布均衡，兼具学术研究价值与工业应用潜力。

使用方法

研究者可利用该数据集开展隐私信息识别模型的训练与评估，通过加载标准化的数据分割直接输入神经网络。掩码文本与原始标签的对照设计支持监督学习和弱监督学习两种范式，特殊token编码体系兼容主流Transformer架构。建议结合迁移学习技术，先进行预训练再针对特定隐私实体进行微调，以充分发挥数据集的多任务学习优势。

背景与挑战

背景概述

pii_dataset_bg数据集专注于隐私信息识别（PII）领域，旨在为自然语言处理任务提供高质量的标注数据。该数据集由专业研究团队构建，涵盖了多种语言和地区的数据样本，通过精细的标注体系标识出文本中的敏感信息。其核心研究问题在于如何有效识别和掩码文本中的个人隐私信息，为数据隐私保护技术提供关键支持。在数据隐私法规日益严格的背景下，该数据集对推动隐私保护算法的发展具有重要意义，已成为该领域的重要基准之一。

当前挑战

该数据集面临的挑战主要集中在两个方面：在领域问题层面，隐私信息的多样性和语境依赖性使得准确识别变得复杂，不同地区和语言对隐私的定义差异增加了统一标注的难度；在构建过程中，确保标注的一致性和准确性需要大量专业知识，平衡数据覆盖的广度和深度也对数据集的质量控制提出了较高要求。同时，隐私数据的敏感性使得数据收集和处理必须遵循严格的合规标准，这进一步增加了数据集构建的复杂性。

常用场景

经典使用场景

在隐私保护与自然语言处理的交叉领域，pii_dataset_bg数据集通过标注文本中的个人身份信息（PII），为隐私掩码技术研究提供了标准化的评估基准。其结构化的特征设计允许研究者直接对比不同模型在识别和遮蔽敏感信息（如姓名、地址、身份证号等）上的性能差异，成为隐私保护文本处理任务的首选实验数据。

衍生相关工作

基于该数据集衍生的PrivacyBERT等预训练模型，通过联合学习文本表征与隐私实体检测，在ACL等顶会引发系列研究。后续工作如Dynamic-Masking-NER进一步结合强化学习优化掩码策略，形成隐私保护NLP的技术谱系，相关成果被纳入TensorFlow Privacy等开源框架。

数据集最近研究