DATABENCH

Name: DATABENCH
Creator: 浙江大学, 新加坡南洋理工大学, 重庆大学, 武汉大学, 美国马里兰大学
Published: 2025-07-08 11:07:15
License: 暂无描述

arXiv2025-07-08 更新2025-07-10 收录

下载链接：

https://github.com/shaoshuo-ss/DATABench

下载链接

链接失效反馈

官方服务：

资源简介：

DATABENCH是一个数据集审计攻击基准，包含17种逃避攻击、5种伪造攻击和9种代表性的数据集审计方法。该数据集旨在评估数据集审计方法在对抗环境下的鲁棒性和独特性。通过使用DATABENCH进行广泛评估，研究发现现有的审计方法在对抗环境下均不够鲁棒或独特，突出了开发更可靠数据集审计方法的迫切需求。

DATABENCH is a dataset auditing attack benchmark encompassing 17 evasion attacks, 5 forging attacks, and 9 representative dataset auditing methodologies. This benchmark is designed to evaluate the robustness and uniqueness of dataset auditing methods under adversarial environments. Through extensive evaluations utilizing DATABENCH, research has revealed that all existing auditing methods fail to demonstrate sufficient robustness or uniqueness in adversarial scenarios, underscoring the pressing need for developing more reliable dataset auditing techniques.

提供机构：

浙江大学, 新加坡南洋理工大学, 重庆大学, 武汉大学, 美国马里兰大学

创建时间：

2025-07-08

原始信息汇总

DATABench 数据集概述

基本描述

DATABench是一个用于从对抗角度评估深度学习数据集审计方法的综合基准。它提供了标准化接口的统一框架，支持对数据集审计算法和潜在攻击进行公平比较和可扩展研究。

主要特性

统一评估框架：为对抗环境下的数据集审计方法提供标准化评估流程
可扩展架构：明确定义的接口支持实现新的审计算法和攻击方法
三阶段攻击流程：包含预处理、训练和后处理阶段的全面攻击框架
ImageFolder支持：兼容任何ImageFolder结构的数据集
丰富攻击方法：内置多种攻击包括过滤、差分隐私、对抗训练和混合方法
多种审计技术：支持MIA、DVBW、DW等多种审计方法

项目结构

DATABench/ ├── audit/ # 数据集审计实现 │ ├── dataset_audit.py # 基础审计接口 │ ├── MIA.py # 成员推理攻击 │ ├── DVBW.py # 通过后门水印进行数据集所有权验证 │ └── ... # 其他审计方法 ├── attack/ # 攻击实现 │ ├── attack_interface.py # 基础攻击接口 │ ├── attack.py # 攻击工厂和配置 │ ├── preprocessing/ # 预处理攻击 │ ├── training/ # 训练时攻击 │ └── postprocessing/ # 后处理攻击 ├── config/ # 配置文件 ├── scripts/ # 评估脚本 ├── utils/ # 实用函数 └── audit_main.py # 主评估脚本

快速开始

环境准备： bash pip install -r requirements.txt
数据集准备（以CIFAR-10为例）： bash python utils/transform_cifar10.py
执行评估： bash bash scripts/audit/DVBW/resnet18-cifar10.sh ${gpus} ${attack} # 用于规避攻击 bash scripts/forgery/forgery.sh ${gpus} ${audit_method} # 用于伪造攻击

相关论文

标题：DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective
作者：Shao, Shuo等
期刊：arxiv preprint arxiv:2507.05622
年份：2025

搜集汇总

数据集介绍

构建方式

DATABENCH数据集的构建基于对深度学习数据集审计技术的系统性研究，通过引入内部特征（IF）和外部特征（EF）的分类法，将现有审计方法分为IF-based和EF-based两类。在此基础上，研究者提出了两种主要的攻击类型：逃避攻击和伪造攻击，并进一步设计了系统化的攻击策略。具体而言，DATABENCH包含了17种逃避攻击、5种伪造攻击以及9种代表性的数据集审计方法，通过广泛的实验评估这些方法在对抗环境下的鲁棒性和独特性。

特点

DATABENCH数据集的特点在于其全面性和系统性。它不仅涵盖了多种数据集审计方法，还针对每种方法设计了多样化的攻击策略，从而能够全面评估审计方法在对抗环境下的表现。此外，DATABENCH还提供了一个可扩展的开源工具箱，便于研究者开发新的审计技术和攻击方法，并在此统一基准下进行系统评估。数据集的构建注重实际应用场景，包括从零开始训练和微调模型等多种设置，确保了评估的广泛性和实用性。

使用方法

DATABENCH数据集的使用方法主要包括三个步骤：首先，研究者可以选择感兴趣的审计方法，并利用DATABENCH提供的攻击策略对其进行评估；其次，通过实验分析审计方法在不同攻击下的表现，评估其鲁棒性和独特性；最后，研究者可以利用DATABENCH的开源工具箱，开发新的审计方法或攻击策略，并在统一的基准下进行验证。数据集的使用不仅限于评估现有方法，还可用于探索新的研究方向，如开发更安全的审计技术或设计更复杂的攻击手段。

背景与挑战

背景概述

DATABENCH是由浙江大学区块链与数据安全国家重点实验室、南洋理工大学等机构的研究团队于2025年提出的深度学习数据集审计评估基准。该数据集针对深度学习模型训练中普遍存在的隐私与版权问题，系统研究了对抗视角下的数据集审计技术可靠性。核心研究聚焦于构建包含17种规避攻击和5种伪造攻击的标准化测试套件，通过内部特征（IF）与外部特征（EF）的新型分类体系，首次全面评估了9种代表性审计方法在对抗环境下的鲁棒性。其创新性工作揭示了现有审计技术在模型架构多样性、训练过程不可知性及对抗操作等方面的脆弱性，为数据版权保护领域提供了重要的评估框架。

当前挑战

DATABENCH面临的核心挑战体现在两个维度：领域问题层面，现有审计方法难以有效应对模型参数中数据痕迹的隐蔽性、模型架构的多样性以及对抗性处理带来的干扰；构建过程中，需解决攻击策略的系统化建模（如针对IF特征的解耦攻击与EF特征的移除/检测攻击）、跨阶段攻击的协同效应验证，以及评估指标的科学设计。特别地，EF类方法面临对抗样本伪造目标行为的挑战，而IF类方法则需克服模型过拟合特征易被正则化等技术削弱的难题。这些挑战使得当前审计方法在真实对抗场景中的准确率普遍低于安全阈值。

常用场景

经典使用场景

DATABENCH数据集在深度学习领域中被广泛应用于评估数据集审计技术的鲁棒性和独特性。该数据集通过引入内部特征（IF）和外部特征（EF）的分类方法，为研究者提供了一个系统化的评估框架。其经典使用场景包括测试不同审计方法在对抗性攻击下的表现，例如逃避攻击和伪造攻击。通过这种方式，DATABENCH帮助研究者识别现有审计方法的漏洞，并为改进这些方法提供了重要依据。

实际应用

DATABENCH数据集在实际应用中主要用于评估和提升深度学习模型的数据集审计技术。例如，在数据隐私保护和版权管理中，该数据集可以帮助开发者识别和防范潜在的对抗性攻击，确保数据使用的透明性和合法性。此外，DATABENCH还可用于培训和教育，帮助从业者理解审计技术的局限性和改进方向，从而在实际应用中更好地保护数据安全和知识产权。

衍生相关工作

DATABENCH数据集衍生了一系列相关研究，包括改进的审计方法和新型对抗性攻击技术。例如，基于DATABENCH的研究提出了更鲁棒的内部特征和外部特征分类方法，以及更复杂的审计流程设计。此外，该数据集还激发了关于生成模型审计和跨模态数据集审计的新研究方向。这些衍生工作进一步推动了数据集审计领域的发展，并为未来的研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集