PrivBench

Name: PrivBench
Creator: 深圳大学
Published: 2024-05-02 22:20:24
License: 暂无描述

arXiv2024-05-02 更新2024-06-21 收录

下载链接：

https://github.com/dsegszu/privbench

下载链接

链接失效反馈

官方服务：

资源简介：

PrivBench是由深圳大学开发的一个创新的数据合成框架，专注于在保证隐私的前提下生成高质量的数据集，用于数据库性能的基准测试。该数据集利用了和积网络（SPNs）来分割和采样数据，增强了数据表示的同时确保了隐私安全。PrivBench允许用户调整SPN分割的细节和隐私设置，这对于定制隐私级别至关重要。数据集的应用领域主要是数据库性能测试，旨在解决在保护用户隐私的同时，如何生成与原始数据查询性能相近的合成数据集的问题。

PrivBench is an innovative data synthesis framework developed by Shenzhen University, dedicated to generating high-quality datasets for database performance benchmarking while guaranteeing user privacy. This framework adopts Sum-Product Networks (SPNs) to split and sample data, enhancing data representation while ensuring privacy and security. PrivBench allows users to adjust the granularity of SPN-based segmentation and privacy settings, which is critical for customizing privacy levels. Its primary application domain is database performance testing, aiming to address the challenge of generating synthetic datasets that exhibit query performance consistent with that of the original data while protecting user privacy.

提供机构：

深圳大学

创建时间：

2024-05-02

搜集汇总

数据集介绍

构建方式

在数据库管理系统性能评估领域，基准测试的构建常面临真实数据隐私泄露的风险。PrivBench框架创新性地采用差分隐私保护下的和积网络进行数据合成，其构建过程分为三个阶段：首先，通过私有SPN构建算法为每个数据表递归地建立树状结构，利用拉普拉斯机制和指数机制对行划分、列划分及直方图注入噪声；其次，通过私有扇出构建算法，基于主外键关系在SPN叶节点中补充扇出频率分布，并添加噪声以保护关联信息；最后，依据修改后的SPN结构，自底向上采样生成完整的合成数据库，确保数据分布与原始数据高度近似。

使用方法

PrivBench数据集主要服务于数据库管理系统性能基准测试的隐私保护发布场景。使用者首先需准备原始数据库及其模式定义，通过设定总体隐私预算及划分参数，调用PrivBench合成框架生成具有相同模式的差分隐私数据库。生成的合成数据可直接用于替代原始数据，执行各类查询工作负载，以评估和比较不同DBMS的运行时性能、查询优化器效率等。研究者亦可调整SPN划分粒度、隐私预算分配比例等超参数，以探索隐私保护强度与数据效用之间的权衡关系，或将其作为基线方法，推动隐私增强数据合成领域的算法创新。

背景与挑战

背景概述

PrivBench数据集由深圳大学、大阪大学、南方科技大学及北京理工大学等机构的研究团队于2023年联合提出，旨在解决数据库管理系统（DBMS）基准测试中真实用户数据因隐私问题难以直接共享的困境。该数据集聚焦于隐私增强的数据库合成领域，核心研究问题在于如何通过差分隐私技术生成合成数据库，使其在查询性能和数据分布上高度逼近原始数据，同时严格保护用户敏感信息。PrivBench的推出标志着数据库基准测试从固定模式向个性化、隐私安全的范式转变，为数据库性能评估提供了兼顾实用性与隐私保护的新途径，对数据管理、隐私计算及基准测试方法论产生了深远影响。

当前挑战

PrivBench所解决的领域挑战在于平衡数据库合成中的隐私保护与效用保持。具体而言，传统差分隐私方法多关注聚合查询或分类任务的误差最小化，而忽略了对查询执行时间、基数估计等基准测试关键指标的保真度，导致合成数据在DBMS性能评估中失真。构建过程中的挑战包括：其一，需设计新型框架以在差分隐私约束下精确建模多表关联与复杂数据依赖，避免因噪声注入导致查询性能显著偏差；其二，在动态构建基于和积网络（SPN）的层次化模型时，需合理分配隐私预算，确保数据分区、直方图构建及外键关系建模等环节的隐私保障，同时维持合成数据的统计相似性与查询运行时相似性。

常用场景

经典使用场景

在数据库管理系统（DBMS）的性能评估领域，基准测试是衡量系统效能的关键手段。然而，传统基准测试往往采用固定模式与查询，难以精准反映用户实际工作负载的多样性与复杂性。PrivBench 数据集的提出，正是为了应对这一挑战，其最经典的使用场景在于为 DBMS 的基准测试生成高质量的隐私保护合成数据库。通过集成差分隐私（Differential Privacy）技术与和积网络（Sum-Product Networks, SPNs），PrivBench 能够从包含敏感信息的原始数据库中，合成出在查询性能和数据分布上与原始数据高度相似、同时严格保护用户隐私的仿真数据库，从而为数据库系统的性能调优、容量规划及新技术验证提供既真实又安全的测试环境。

解决学术问题

PrivBench 数据集的核心学术价值在于，它系统性地解决了隐私保护数据发布与数据库基准测试需求之间的固有矛盾。传统差分隐私数据合成方法多聚焦于降低聚合查询或分类任务的误差，而较少关注基准测试所依赖的运行时性能等关键指标。PrivBench 通过创新的框架设计，将研究重点转向如何在保证ε-差分隐私的前提下，最小化合成数据库与原始数据库在查询执行时间、查询结果基数（Cardinality）以及KL散度（衡量数据分布差异）等方面的误差。这标志着隐私保护数据合成研究从单纯的统计发布向支持复杂、性能敏感的数据库系统评测场景的重要演进，为在严格隐私约束下进行可信的系统性能评估奠定了方法论基础。

实际应用

在实际应用层面，PrivBench 框架展现出广泛的适用性。企业或研究机构在需要共享数据库用于第三方系统性能基准测试时，常因数据隐私法规（如GDPR）或商业机密顾虑而却步。PrivBench 能够为此类场景提供解决方案，例如，云计算服务商可利用它生成脱敏的客户工作负载仿真数据，以公平地评测不同数据库产品的性能；金融机构在内部系统升级前，可借助 PrivBench 创建符合隐私要求的合成交易数据，用于新系统的压力测试与性能验证。其支持单表、多表乃至具有外键约束的复杂关系型数据库合成，并能通过调整规模因子生成不同数据量的测试集，有效满足了从合规性审计到大规模系统容量规划等多种实际业务需求。

数据集最近研究