Synth-MIA

Name: Synth-MIA
Creator: 加州大学洛杉矶分校
Published: 2025-09-23 00:53:38
License: 暂无描述

arXiv2025-09-23 更新2025-09-24 收录

下载链接：

https://github.com/joshward96/Synth-MIA

下载链接

链接失效反馈

官方服务：

资源简介：

Synth-MIA是一个开源的Python库，它提供了一个统一的、模型无关的威胁框架，用于评估表格合成数据中的隐私泄露。该框架通过集成一组攻击来估计合成数据集中最大可能的隐私泄露。Synth-MIA通过一个类似scikit-learn的API，将这个框架无缝集成到现有的合成数据评估流程中，支持一系列攻击方法、评估指标和功能，旨在帮助实践者快速系统地评估隐私泄露，并为研究人员开发新的攻击和实验提供便利。

Synth-MIA is an open-source Python library that provides a unified, model-agnostic threat framework for evaluating privacy leakage in tabular synthetic data. This framework estimates the maximum possible privacy leakage in synthetic datasets by integrating a suite of attacks. Synth-MIA seamlessly integrates this framework into existing synthetic data evaluation workflows via a scikit-learn-like API, supporting a range of attack methods, evaluation metrics and functionalities. It is designed to help practitioners quickly and systematically assess privacy leakage, and facilitate researchers in developing new attacks and conducting experiments.

提供机构：

加州大学洛杉矶分校

创建时间：

2025-09-23

原始信息汇总

Synth-MIA 数据集概述

数据集简介

Synth-MIA 是一个用于对合成表格数据生成器进行成员推理攻击（MIA）的综合开源框架。该库提供了一个统一的接口，用于实施和评估各种隐私攻击，使研究人员和从业者能够评估其合成数据生成模型的隐私风险。

主要功能

提供多种成员推理攻击方法的实现和评估。
支持对合成数据生成模型的隐私泄露进行审计。

可用攻击方法

DCR：基于距离的最接近记录攻击。
DCRDiff：DCR 的校准变体。
GenLRA：生成模型似然比攻击。
LOGAN：基于损失的生成对抗网络攻击。
DOMIAS：DOMIAS 攻击。
DPI：数据剽窃指数攻击。
MC：基于蒙特卡洛的攻击。
Classifier：基于机器学习分类器的攻击。
LocalNeighborhood：基于局部邻域的攻击。
DensityEstimate：基于密度估计的攻击。

系统要求

Python 3.10 或更高版本。
依赖库包括 NumPy、Pandas、Scikit-learn、SciPy、torch 等。

安装方式

从源代码安装

bash git clone Anonymized cd Synth-MIA pip install -e .

快速开始示例

python import pandas as pd from synth_mia.attackers import DCR from synth_mia.utils import TabularPreprocessor, create_random_equal_dfs

加载数据集

train_data = pd.read_csv(path/to/training_data.csv) test_data = pd.read_csv(path/to/test_data.csv)
synthetic_data = pd.read_csv(path/to/synthetic_data.csv)

创建成员/非成员分割

non_member_set, reference_set = create_random_equal_dfs(test_data, 250, num_dfs=2, seed=42)

数据预处理

preprocessor = TabularPreprocessor(fit_target=synth, categorical_encoding=one-hot, numeric_encoding=standard) preprocessor.fit(train_data, non_member_set, synthetic_data) mem, non_mem, synth, ref, _ = preprocessor.transform(train_data, non_member_set, synthetic_data)

运行攻击

attacker = DCR() true_labels, scores = attacker.attack(mem, non_mem, synth, ref)

评估结果

results = attacker.eval(true_labels, scores, metrics=[roc, classification, privacy]) print(results)

数据准备要求

成员集：用于生成合成数据集的训练数据。
非成员集：训练过程中未使用的保留数据。
合成集：待审计的生成合成数据。
参考集（可选）：某些攻击所需的额外参考数据。

评估指标

ROC 指标：AUC 和特定 FPR 阈值下的 TPR。
分类指标：准确率、精确率、召回率等。
隐私指标：MIA 优势和隐私增益。
Epsilon-差分隐私边界。

项目结构

synth_mia/ ├── init.py # 主包初始化，包含动态攻击者发现 ├── base.py # BaseAttacker 抽象类 ├── evaluation.py # 用于综合指标评估的 AttackEvaluator ├── utils.py # 数据预处理和实用函数 └── attackers/ # 攻击实现 ├── dcr.py # 基于距离的最接近记录攻击 ├── gen_lra.py # 广义似然比攻击 ├── logan.py # 基于损失的 GAN 攻击 ├── domias.py # 基于距离的单类模型攻击 └── ... # 其他攻击方法

扩展框架

可通过继承 BaseAttacker 类实现自定义攻击。

许可证

本项目采用 MIT 许可证。

贡献

欢迎贡献代码，请通过提交 Pull Request 参与项目。

联系方式

代码库：Anonymized
问题反馈：Anonymized

搜集汇总

数据集介绍

构建方式

Synth-MIA数据集的构建采用了系统化的隐私审计框架，通过集成多种成员推断攻击方法来评估表格生成模型的隐私泄露风险。该框架在统一的威胁模型下部署了13种不同的攻击策略，包括距离度量、密度估计和分类器等多种技术路径。数据预处理模块对训练集、合成集和参考集进行标准化处理，确保攻击评估的公平性和可复现性。攻击执行模块采用模块化设计，支持新型攻击方法的快速集成，而评估模块则通过ROC曲线下面积和固定误报率下的真阳率等指标量化隐私风险。

特点

该数据集的核心特征在于其全面的攻击方法覆盖和模型无关的评估能力。它囊括了当前主流的成员推断攻击技术，如基于记忆效应的DCR攻击、利用分布过拟合的DOMIAS方法以及结合参考数据集校准的Gen-LRA算法。数据集支持多种隐私评估指标，包括传统分类指标和基于经验差分隐私的理论框架。其模块化架构允许灵活配置攻击组合，并通过严格的预处理流程防止信息泄露。特别值得注意的是，数据集揭示了不同攻击方法在不同数据场景下的性能差异，凸显了综合审计的必要性。

使用方法

使用Synth-MIA进行隐私审计时，研究人员需准备训练数据集、合成数据集以及独立采样的参考数据集。通过调用标准化的Python接口，用户可以配置攻击参数并执行多轮隐私评估。系统会自动完成数据预处理、攻击执行和结果分析全流程，生成包含最大隐私泄露指标的审计报告。实践表明，评估过程中应优先采用集成攻击策略，通过比较不同攻击方法的性能上限来准确评估实际风险。对于差分隐私等特定技术，数据集还能辅助验证其在实际场景中的隐私保护效果。

背景与挑战

背景概述

表格数据合成技术近年来在医疗健康、金融保险等敏感领域展现出重要应用价值，但生成模型对训练数据的记忆效应可能导致隐私泄露风险。2025年，加州大学洛杉矶分校的Joshua Ward团队提出Synth-MIA测试平台，旨在系统化评估表格生成模型的隐私泄露程度。该数据集通过集成13种成员推理攻击方法，构建了迄今为止规模最大的表格合成隐私基准，揭示了高质量合成数据与隐私泄露之间的潜在权衡关系。该研究为数据合成领域的隐私风险评估提供了标准化工具，推动了生成模型在隐私敏感场景下的可靠部署。

当前挑战

该数据集主要面临两大挑战：在领域问题层面，现有相似性度量指标难以准确刻画合成数据的隐私风险，不同成员推理攻击方法针对模型过拟合和记忆效应的不同维度，导致隐私评估结果存在显著差异。在构建过程中，需要协调多种攻击方法在统一威胁模型下的实施一致性，解决不同威胁假设导致的评估结果不可比性问题。同时还需设计高效的隐私评估流程，以应对大规模表格数据生成场景下的计算复杂度挑战，确保评估结果既能反映真实隐私风险，又具备实际可操作性。

常用场景

衍生相关工作

该数据集的发布推动了表格数据隐私评估方法的一系列创新研究。基于其框架衍生的经典工作包括针对局部似然优化的Gen-LRA攻击、利用邻域密度比率的DPI方法，以及结合生成对抗网络判别器的LOGAN攻击等。这些工作从不同角度探索了生成模型的失效模式：有的专注于分布过拟合检测，有的研究精确记忆化现象。相关研究还拓展到差分隐私生成器的实证评估领域，揭示了形式化隐私保证在实际攻击下的局限性，促进了隐私增强技术与对抗性评估方法的协同发展。

数据集最近研究