five

Privasis-Zero

收藏
Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/nvidia/Privasis-Zero
下载链接
链接失效反馈
官方服务:
资源简介:
Privasis-Zero 是一个大规模合成数据集,包含多样化的文本记录,如医疗和财务记录、法律文件、电子邮件和消息,这些记录富含隐私敏感信息。每条记录包括合成个人资料、周围社交背景以及隐私相关内容的注释。所有数据均使用大型语言模型(LLM)生成,并辅以来自美国社会保障管理局公共数据库的名字。该数据集旨在支持对隐私敏感数据进行操作的模型的训练和评估,例如包含带注释的文本清理指令及其相应的清理输出。当前版本专注于英语内容。数据集仅用于非商业/研究和开发目的。数据集规模包括130万条文本记录和5400万条注释记录,总存储量为15GB。数据集由NVIDIA Corporation创建,采用NVIDIA许可证。
提供机构:
NVIDIA
创建时间:
2026-03-24
搜集汇总
数据集介绍
main_image_url
构建方式
在隐私保护与文本脱敏研究领域,高质量数据集的构建至关重要。Privasis-Zero数据集通过大规模语言模型合成技术构建,其核心方法在于利用多种先进大语言模型(如Gemini-2.5-pro、GPT-5、Llama 4 Maverick等)生成涵盖医疗、金融、法律、邮件等多种类型的文本记录。这些记录均包含合成的人物档案、社会背景叙述以及详细的隐私属性标注。为确保身份信息的真实性,数据集中的名字部分引用了美国社会保障管理局的公开数据库。整个构建过程采用分集策略,将数据划分为通用语料库、训练集与测试集,其中测试集进一步细分为标准与困难两种配置,以支持不同难度的模型评估。
特点
该数据集在隐私敏感文本处理领域展现出鲜明的特色。其内容覆盖广泛,囊括了行政、通讯、创意、教育、金融、人力资源、法律、市场营销、医疗、笔记等十五个标签类别,模拟了真实世界中的多样化文档场景。每一条记录均配备了精细的结构化标注,包括原始文本、脱敏后文本、属性注解、分组属性以及详细的脱敏指令与过程追溯。特别值得注意的是,数据集提供了完整的脱敏轨迹,如分解记录、按属性划分的脱敏序列以及序列映射,为深入理解文本脱敏机制提供了透明化的研究基础。困难测试集未提供参考脱敏结果,专为评估模型自主脱敏能力而设计。
使用方法
对于致力于隐私保护或社交数据处理的研究者而言,该数据集提供了系统的应用路径。数据集以Parquet和JSONL格式组织,包含语料库、标准验证/测试集以及困难验证/测试集等多个配置,便于用户按需加载。研究实践通常始于利用通用语料库进行探索性分析,进而使用特定的训练集(如GPT-OSS-120B和Qwen3 Next 80B Instruct生成的数据)对模型进行训练或微调。模型性能的评估则依赖于标准与困难两个测试集,通过对比模型生成的脱敏文本与数据集中提供的参考脱敏结果(困难集除外),或分析其遵循结构化脱敏指令的能力,从而全面衡量模型在隐私信息识别、抽象、删除与保留等多方面的综合表现。
背景与挑战
背景概述
在数字时代,隐私保护与数据安全已成为人工智能领域亟待解决的核心议题。由NVIDIA公司于2025年12月3日发布的Privasis-Zero数据集,旨在通过大规模合成文本记录,为隐私敏感数据的处理模型提供训练与评估基础。该数据集涵盖医疗、金融、法律、通信等多领域文档,内含丰富的个人可识别信息(PII)及社交语境标注,其生成完全依赖于大型语言模型,并辅以美国社会安全管理局的公开姓名库。这一创新性资源致力于推动文本脱敏技术、隐私保护代理以及社会数据分析的前沿研究,为构建可靠且符合伦理的AI系统提供了关键数据支撑。
当前挑战
Privasis-Zero数据集所应对的核心挑战在于隐私敏感文本的自动化脱敏处理,这要求模型在保留语义连贯性的同时,精准识别并抽象、删除或保留各类个人属性。构建过程中的主要困难体现在合成数据的真实性与多样性平衡上:一方面需确保生成的医疗、金融等记录在结构和内容上贴近现实,以有效模拟真实脱敏场景;另一方面,跨文档类型、语境和敏感属性的标注体系设计,以及多模型生成数据的一致性整合,均为数据集构建带来了显著的技术复杂性。此外,'困难'评估分集中缺乏参考脱敏结果,进一步加剧了模型性能评估的难度。
常用场景
经典使用场景
在隐私保护与自然语言处理交叉领域,Privasis-Zero数据集为文本去标识化任务提供了基准测试平台。该数据集通过合成医疗记录、金融文档、法律文书及电子邮件等多样化文本,模拟真实世界中的隐私敏感信息场景。研究者可利用其标注的原始记录与去标识化版本,训练并评估模型在识别和抽象个人可识别信息方面的性能,尤其在处理复杂社会语境下的隐私数据时展现出独特价值。
衍生相关工作
基于Privasis-Zero的标注框架与合成范式,衍生出多项隐私保护领域的经典研究。例如,研究者构建了基于大语言模型的隐私属性联合抽取模型,利用其分组标注优化实体关联识别;另有工作借鉴其去标识化指令生成机制,开发出可解释的隐私策略转换系统。该数据集还催生了针对医疗-法律跨领域隐私迁移的评估基准,推动了隐私保护技术的领域适应性研究。
数据集最近研究
最新研究方向
在数据隐私保护领域,Privasis-Zero数据集凭借其大规模合成文本与精细的隐私标注,正推动文本去标识化技术的前沿探索。该数据集融合医疗、金融、法律等多领域敏感信息,为开发能够理解并处理复杂隐私场景的智能体提供了关键训练资源。当前研究聚焦于利用其结构化属性标注与去标识化指令,训练大语言模型实现自动化隐私信息识别与泛化,以应对日益严格的全球数据监管要求。同时,其“困难”测试集的设计,旨在评估模型在缺乏参考输出时的鲁棒性,这直接关联到实际部署中处理未知隐私模式的能力。此类工作不仅提升了人工智能在敏感数据应用中的可信度,也为构建下一代隐私保护系统奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作