Privasis

github2026-02-04 更新2026-02-06 收录

下载链接：

https://github.com/skywalker023/privasis

下载链接

链接失效反馈

官方服务：

资源简介：

Privasis是一个合成的最大公共私人数据集，从零开始构建，包含生成带有个人身份信息（PII）的合成记录以及抽象或移除目标信息的步骤。

Privasis is the largest publicly available synthetic private dataset built from scratch. It encompasses the processes for generating synthetic records containing personally identifiable information (PII), as well as steps for abstracting or removing target information.

创建时间：

2026-02-04

原始信息汇总

Privasis数据集概述

数据集基本信息

数据集名称：Privasis
关联论文："Privasis: Synthesizing the Largest Public Private Dataset from Scratch"
项目网站：https://privasis.github.io
当前状态：即将发布数据集和模型

数据集构建流程

该数据集通过一个两阶段的合成管道构建。

第一阶段：生成Privasis (`generate.py`)

目的：生成包含丰富隐私敏感信息（PII）的合成记录。
关键参数：
- --run-id：运行标识符，用作输出文件名。
- --n_seeds：生成个人资料的数量。
- --generator-model：用于生成的模型（必需）。
- --num_events：每个个人资料的事件数量。
- --embedding-model：用于多样性评分（Vendi分数）的嵌入模型。
输出位置：outputs/privasis/{run-id}/目录下的{run-id}.jsonl文件。

第二阶段：构建Privasis-Sanitization (`sanitize.py`)

目的：对生成的记录中的目标信息进行抽象化或移除处理。
关键参数：
- --privasis-data-id：生成阶段的运行标识符。
- --run-id：本次净化运行的标识符。
- --sanitization-model：用于净化处理的模型。
- --attr-selection-weighting：属性选择策略（uniform 或 sensitivity）。
输出位置：outputs/sanitized_privasis/目录下的{privasis-data-id}_{run-id}.jsonl（净化后的记录）和{privasis-data-id}_{run-id}_errors.jsonl（失败实例）文件。

支持的技术方案与模型

生成与净化方案

OpenAI API：使用GPT-4.1等模型，按使用量付费。
vLLM Server（本地模型）：在自有GPU上运行模型，支持并行工作线程以提高吞吐量。

支持的模型提供商

提供商	模型模式	环境变量
OpenAI	`gpt-4`, `gpt-5`, `o1-`, `o3`	`OPENAI_API_KEY`
NVIDIA NIM	`nvdev/*`	`NVDEV_API_KEY`
vLLM Server	任何模型 + `--vllm-server-url`参数	不适用

引用信息

如需引用，请使用以下BibTeX格式： bib @article{kim2026privasis, title={Privasis: Synthesizing the Largest Public Private Dataset from Scratch}, author={Kim, Hyunwoo and Mireshghallah, Niloofar and Duan, Michael and Xin, Rui and Li, Shuyue Stella and Jung, Jaehun and Acuna, David and Pang, Qi and Xiao, Hanshen and Suh, G. Edward and Oh, Sewoong and Tsvetkov, Yulia and Koh, Pang Wei and Choi, Yejin}, booktitle ={arXiv preprint arXiv:2602.03183}, year=2026 }

搜集汇总

数据集介绍

构建方式

在隐私保护与数据合成领域，Privasis数据集通过创新的两阶段流程构建而成。第一阶段利用大型语言模型生成包含丰富个人身份信息的合成记录，通过并行化处理与多样性评分机制确保数据的广泛覆盖。第二阶段则对生成的数据进行脱敏处理，采用基于敏感度的属性选择策略，有效移除或抽象关键隐私信息，从而在保持数据实用性的同时强化隐私保障。

特点

Privasis数据集作为目前规模最大的公开隐私数据集，其核心特点在于完全由合成方法构建，避免了真实个人数据的泄露风险。数据集涵盖多样化的个人事件与属性，并通过嵌入式模型进行多样性评估，确保样本的代表性与异质性。此外，数据集提供原始与脱敏两个版本，为隐私保护算法的开发与评估提供了多层次、可定制的实验基础。

使用方法

使用Privasis数据集时，研究人员可通过提供的脚本快速启动数据生成与脱敏流程。支持OpenAI API及本地vLLM服务器两种运行模式，用户可根据计算资源与需求灵活选择模型并调整并行工作线程数量。生成的数据以JSONL格式保存于结构化目录中，便于后续加载与分析。该框架为隐私保护、数据合成及机器学习模型训练等任务提供了即用型工具链。

背景与挑战

背景概述

在数据隐私与合成数据生成领域，高质量且规模庞大的隐私敏感数据集对于推动隐私保护技术的研究至关重要。Privasis数据集由华盛顿大学、麻省理工学院、斯坦福大学等机构的跨学科研究团队于2026年创建，其核心研究问题在于如何通过生成式人工智能技术，从零开始合成大规模、高真实度的隐私敏感数据，同时确保数据在公开使用前经过有效的脱敏处理。该数据集的构建旨在为隐私保护机器学习、差分隐私、数据匿名化等前沿方向提供基准资源，通过模拟真实世界中的个人可识别信息（PII），促进隐私增强技术的评估与创新，对推动可信人工智能的发展具有深远影响力。

当前挑战

Privasis数据集致力于解决隐私敏感数据合成与脱敏领域的双重挑战。在领域问题层面，主要挑战在于生成既高度逼真又符合隐私保护要求的合成数据，这需要平衡数据的实用性与隐私风险，避免合成数据泄露真实个体的敏感信息。在构建过程中，研究团队面临生成模型对隐私语义理解的准确性、大规模数据合成的计算效率、以及脱敏过程中信息保留与隐私保护的权衡等具体难题。此外，确保合成数据的多样性与真实性，同时实现自动化、可扩展的脱敏流程，也是该数据集构建中的关键挑战。

常用场景

经典使用场景

在隐私保护与数据合成领域，Privasis数据集为研究人员提供了一个规模庞大的合成私人数据集，其经典使用场景聚焦于隐私增强技术的评估与开发。通过生成包含丰富个人可识别信息的合成记录，并进一步进行脱敏处理，该数据集能够模拟真实世界中的隐私数据流，为隐私保护算法提供标准化的测试基准。研究人员可借此探索数据合成与脱敏之间的平衡，推动隐私计算模型在复杂场景下的性能优化。

解决学术问题

Privasis数据集有效解决了隐私计算研究中高质量基准数据稀缺的学术难题。传统研究常受限于真实隐私数据的获取限制，难以进行可重复的大规模实验。该数据集通过合成方法构建了包含多样化个人信息的样本，支持对数据脱敏、匿名化及差分隐私等技术的系统性评估。其意义在于为隐私保护领域提供了可公开访问的标准化资源，促进了算法比较与理论进展，对推动可信人工智能发展具有深远影响。

衍生相关工作

围绕Privasis数据集，已衍生出多项聚焦隐私合成数据生成的经典研究工作。例如，基于其管道架构的扩展研究探索了大规模语言模型在数据脱敏中的泛化能力；部分工作则利用该数据集评估了差分隐私与合成数据生成的融合效果。这些研究不仅深化了对隐私-效用权衡的理解，还推动了如Privasis-Sanitization等工具链的发展，为后续的隐私保护标准化框架奠定了技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集