Nemotron-PII-EL

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/myrulezzz/Nemotron-PII-EL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于填充掩码任务（fill-mask）的希腊语文本数据集。数据集包含10万条训练样本，总大小约为547MB。每条数据包含以下字段：唯一标识符（uid）、领域（domain）、文档类型（document_type）、文档描述（document_description）、文档格式（document_format）、语言区域（locale）、原始文本（text）、文本片段标记（spans）以及带标签文本（text_tagged）。数据集采用Apache 2.0许可协议发布，主要适用于自然语言处理中的掩码语言建模任务。

创建时间：

2026-03-06

原始信息汇总

Nemotron-PII-EL 数据集概述

数据集基本信息

数据集名称: Nemotron-PII-EL
许可证: Apache 2.0
主要任务类别: 填充掩码 (Fill-Mask)
语言: 希腊语 (el)

数据集结构与规模

数据拆分: 训练集 (train)
训练集样本数量: 100,000 条
训练集数据大小: 546,853,632 字节
数据集总大小: 546,853,632 字节
下载文件大小: 232,425,975 字节

数据特征

数据集包含以下字段：

uid: 唯一标识符 (字符串类型)
domain: 文档所属领域 (字符串类型)
document_type: 文档类型 (字符串类型)
document_description: 文档描述 (字符串类型)
document_format: 文档格式 (字符串类型)
locale: 区域设置 (字符串类型)
text: 文本内容 (字符串类型)
spans: 文本跨度信息 (字符串类型)
text_tagged: 带标记的文本 (字符串类型)

数据文件配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，隐私信息识别任务对高质量标注数据的需求日益增长。Nemotron-PII-EL数据集通过系统化的数据采集与标注流程构建而成，其源文本覆盖多个领域与文档类型，确保了数据的多样性与代表性。标注过程中采用严格的隐私信息标注规范，对文本中的个人身份信息进行精确的边界划分与类别标记，并生成对应的标注序列与结构化标注信息，为模型训练提供了可靠的基础。

特点

该数据集以希腊语文本为核心，专注于个人身份信息的识别任务，具备鲜明的语言与任务特性。其结构设计包含文本内容、标注跨度及带标签文本等多个维度，支持端到端的模型训练与评估。数据覆盖广泛的领域与文档格式，反映了真实场景中隐私信息的分布与表达方式，为模型泛化能力的提升提供了丰富语境。

使用方法

研究者可利用该数据集进行隐私信息识别模型的训练、验证与测试。典型流程包括加载数据分割、解析文本与标注信息，并基于标注跨度或带标签文本构建序列标注任务。数据集适用于多种自然语言处理框架，能够支持掩码语言建模等预训练任务，也可用于微调特定领域的隐私信息抽取模型，促进隐私保护技术的发展。

背景与挑战

背景概述

Nemotron-PII-EL数据集聚焦于希腊语（el）文本中的个人身份信息（PII）识别与掩码任务，由NVIDIA于2024年创建，旨在应对多语言自然语言处理中隐私保护的关键需求。该数据集通过标注文本中的敏感实体，如姓名、地址与金融信息，为开发隐私增强型语言模型提供了结构化资源，推动了跨语言PII检测技术的发展，并在数据合规与人工智能伦理领域产生了显著影响。

当前挑战

该数据集核心挑战在于解决希腊语PII识别的领域问题，包括处理语言特有的形态复杂性与低资源环境下的标注稀疏性，同时需平衡隐私保护与数据效用。构建过程中，挑战涉及多源异构文档的收集与清洗，确保标注一致性与跨领域泛化能力，并克服希腊语数字文本资源有限所带来的数据代表性难题。

常用场景

经典使用场景

在自然语言处理领域，Nemotron-PII-EL数据集专为希腊语文本中的个人身份信息识别与掩码任务而设计。该数据集通过标注文本中的敏感信息片段，为模型训练提供了结构化支持，使其能够精准定位并处理姓名、地址等隐私内容，从而在数据脱敏和隐私保护场景中发挥核心作用。

衍生相关工作

基于Nemotron-PII-EL数据集，衍生出多项经典研究工作，包括改进的命名实体识别模型和跨语言隐私保护框架。这些工作扩展了数据集的应用范围，推动了希腊语NLP工具的发展，并为其他低资源语言的类似数据集构建提供了方法论参考，形成了隐私计算领域的重要分支。

数据集最近研究