Privasis-Zero

Name: Privasis-Zero
Creator: NVIDIA
Published: 2026-03-30 12:03:23
License: 暂无描述

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/nvidia/Privasis-Zero

下载链接

链接失效反馈

官方服务：

资源简介：

Privasis-Zero 是一个大规模合成数据集，包含多样化的文本记录，如医疗和财务记录、法律文件、电子邮件和消息，这些记录富含隐私敏感信息。每条记录包括合成个人资料、周围社交背景以及隐私相关内容的注释。所有数据均使用大型语言模型（LLM）生成，并辅以来自美国社会保障管理局公共数据库的名字。该数据集旨在支持对隐私敏感数据进行操作的模型的训练和评估，例如包含带注释的文本清理指令及其相应的清理输出。当前版本专注于英语内容。数据集仅用于非商业/研究和开发目的。数据集规模包括130万条文本记录和5400万条注释记录，总存储量为15GB。数据集由NVIDIA Corporation创建，采用NVIDIA许可证。

提供机构：

NVIDIA

创建时间：

2026-03-24

搜集汇总

数据集介绍

构建方式

在隐私保护与文本脱敏研究领域，高质量数据集的构建至关重要。Privasis-Zero数据集通过大规模语言模型合成技术构建，其核心方法在于利用多种先进大语言模型（如Gemini-2.5-pro、GPT-5、Llama 4 Maverick等）生成涵盖医疗、金融、法律、邮件等多种类型的文本记录。这些记录均包含合成的人物档案、社会背景叙述以及详细的隐私属性标注。为确保身份信息的真实性，数据集中的名字部分引用了美国社会保障管理局的公开数据库。整个构建过程采用分集策略，将数据划分为通用语料库、训练集与测试集，其中测试集进一步细分为标准与困难两种配置，以支持不同难度的模型评估。

特点

该数据集在隐私敏感文本处理领域展现出鲜明的特色。其内容覆盖广泛，囊括了行政、通讯、创意、教育、金融、人力资源、法律、市场营销、医疗、笔记等十五个标签类别，模拟了真实世界中的多样化文档场景。每一条记录均配备了精细的结构化标注，包括原始文本、脱敏后文本、属性注解、分组属性以及详细的脱敏指令与过程追溯。特别值得注意的是，数据集提供了完整的脱敏轨迹，如分解记录、按属性划分的脱敏序列以及序列映射，为深入理解文本脱敏机制提供了透明化的研究基础。困难测试集未提供参考脱敏结果，专为评估模型自主脱敏能力而设计。

使用方法

对于致力于隐私保护或社交数据处理的研究者而言，该数据集提供了系统的应用路径。数据集以Parquet和JSONL格式组织，包含语料库、标准验证/测试集以及困难验证/测试集等多个配置，便于用户按需加载。研究实践通常始于利用通用语料库进行探索性分析，进而使用特定的训练集（如GPT-OSS-120B和Qwen3 Next 80B Instruct生成的数据）对模型进行训练或微调。模型性能的评估则依赖于标准与困难两个测试集，通过对比模型生成的脱敏文本与数据集中提供的参考脱敏结果（困难集除外），或分析其遵循结构化脱敏指令的能力，从而全面衡量模型在隐私信息识别、抽象、删除与保留等多方面的综合表现。

背景与挑战

背景概述

在数字时代，隐私保护与数据安全已成为人工智能领域亟待解决的核心议题。由NVIDIA公司于2025年12月3日发布的Privasis-Zero数据集，旨在通过大规模合成文本记录，为隐私敏感数据的处理模型提供训练与评估基础。该数据集涵盖医疗、金融、法律、通信等多领域文档，内含丰富的个人可识别信息（PII）及社交语境标注，其生成完全依赖于大型语言模型，并辅以美国社会安全管理局的公开姓名库。这一创新性资源致力于推动文本脱敏技术、隐私保护代理以及社会数据分析的前沿研究，为构建可靠且符合伦理的AI系统提供了关键数据支撑。

当前挑战

Privasis-Zero数据集所应对的核心挑战在于隐私敏感文本的自动化脱敏处理，这要求模型在保留语义连贯性的同时，精准识别并抽象、删除或保留各类个人属性。构建过程中的主要困难体现在合成数据的真实性与多样性平衡上：一方面需确保生成的医疗、金融等记录在结构和内容上贴近现实，以有效模拟真实脱敏场景；另一方面，跨文档类型、语境和敏感属性的标注体系设计，以及多模型生成数据的一致性整合，均为数据集构建带来了显著的技术复杂性。此外，'困难'评估分集中缺乏参考脱敏结果，进一步加剧了模型性能评估的难度。

常用场景

经典使用场景

在隐私保护与自然语言处理交叉领域，Privasis-Zero数据集为文本去标识化任务提供了基准测试平台。该数据集通过合成医疗记录、金融文档、法律文书及电子邮件等多样化文本，模拟真实世界中的隐私敏感信息场景。研究者可利用其标注的原始记录与去标识化版本，训练并评估模型在识别和抽象个人可识别信息方面的性能，尤其在处理复杂社会语境下的隐私数据时展现出独特价值。

衍生相关工作

基于Privasis-Zero的标注框架与合成范式，衍生出多项隐私保护领域的经典研究。例如，研究者构建了基于大语言模型的隐私属性联合抽取模型，利用其分组标注优化实体关联识别；另有工作借鉴其去标识化指令生成机制，开发出可解释的隐私策略转换系统。该数据集还催生了针对医疗-法律跨领域隐私迁移的评估基准，推动了隐私保护技术的领域适应性研究。

数据集最近研究