APBench|对抗性攻击数据集|数据安全数据集

arXiv2023-08-07 更新2024-06-21 收录

对抗性攻击

数据安全

下载链接：

https://github.com/lafeat/apbench

下载链接

链接失效反馈

资源简介：

APBench是由中国科学院深圳先进技术研究院开发的一个统一基准，用于评估对抗性中毒攻击和防御的有效性。该数据集包含9种最先进的可用性中毒攻击方法、8种防御算法和4种常规数据增强技术。APBench旨在通过标准化扰动和训练超参数，确保公平可重复的比较评估，从而促进和推广未来在可用性中毒攻击和防御方法上的进步。数据集的应用领域主要集中在解决深度学习模型训练中的数据安全和隐私保护问题。

提供机构：

中国科学院深圳先进技术研究院

创建时间：

2023-08-07

AI搜集汇总

数据集介绍

构建方式

APBench 数据集的构建旨在为可用性中毒攻击与防御提供一个统一的基准。该数据集整合了9种最先进的可用性中毒攻击方法、8种防御算法以及4种常见的数据增强技术。通过在多个公开数据集上进行实验，APBench 设置了不同的中毒比例，并评估了这些攻击在不同模型架构上的可迁移性。此外，APBench 还特别针对无监督模型进行了额外的攻击评估，确保了其在不同场景下的广泛适用性。

特点

APBench 数据集的特点在于其全面性和多样性。它不仅涵盖了多种类型的可用性中毒攻击，还提供了多种防御策略，使得研究者能够在一个统一的框架下评估攻击与防御的效果。此外，APBench 还提供了可视化工具，如 t-SNE、Shapley 值图和 Grad-CAM，帮助研究者直观地分析中毒攻击对模型特征表示的影响。

使用方法

APBench 数据集的使用方法简单直观。研究者可以通过加载预生成的 poisoned 数据集，结合攻击模块和防御模块进行实验。攻击模块提供了多种中毒攻击方法，而防御模块则包含了多种防御策略。通过评估模块，研究者可以计算不同攻击与防御组合的准确率，并进行定性分析。此外，APBench 还提供了详细的实验设置和超参数配置，确保实验的可重复性和公平性。

背景与挑战

背景概述

随着深度神经网络（DNN）技术的快速发展，数据资源的可用性成为其进步的关键因素。然而，大规模数据的未经授权收集引发了数据安全和隐私的担忧。为应对这一问题，可用性中毒攻击（Availability Poisoning Attacks, APA）应运而生，通过向数据中注入微小的扰动，阻止模型有效学习原始特征，从而保护个人隐私。APBench数据集由深圳先进技术研究院、中国科学院大学和澳门大学的研究人员于2023年提出，旨在评估可用性中毒攻击与防御方法的有效性。该数据集包含了9种先进的可用性中毒攻击、8种防御算法以及4种传统数据增强技术，涵盖了多种实验设置和模型架构，为深度学习社区提供了一个统一的基准。

当前挑战

APBench数据集的构建面临多重挑战。首先，可用性中毒攻击的有效性评估需要在不同的实验设置和模型架构下进行，这增加了评估的复杂性。其次，随着攻击与防御方法的快速发展，研究人员需要不断更新和评估新的方法组合，以确保其有效性。此外，部分攻击方法依赖于特定的扰动预算和模型假设，这限制了其在实际应用中的通用性。最后，防御方法的有效性依赖于对扰动的精确检测和消除，而现有的防御方法在面对高强度扰动时表现不佳，存在一定的局限性。

常用场景

经典使用场景

APBench 数据集的经典使用场景主要集中在对抗性攻击与防御的评估与比较。该数据集整合了9种最先进的可用性中毒攻击方法和8种防御算法，以及4种常见的数据增强技术，旨在为研究人员提供一个统一的基准，用于评估不同攻击与防御策略的有效性。通过在多个公开数据集上进行实验，APBench 能够系统地分析攻击与防御的性能，尤其是在不同中毒比例和模型架构下的表现。

解决学术问题

APBench 数据集解决了在对抗性攻击与防御领域中，由于实验设置的多样性导致难以准确评估不同方法性能的问题。通过提供一个标准化且可复现的基准，APBench 使得研究人员能够公平地比较各种攻击与防御策略的效果。此外，该数据集还揭示了现有攻击方法在保护个人隐私方面的不足，推动了未来更有效的攻击与防御策略的发展，具有重要的学术意义。

衍生相关工作

APBench 数据集的发布催生了一系列相关的研究工作，特别是在对抗性攻击与防御领域。许多研究者基于 APBench 提供的基准，进一步探索了新的攻击与防御策略，例如改进的对抗性训练方法、更高效的图像预处理技术等。此外，APBench 还启发了对无监督学习模型的攻击与防御研究，推动了该领域的技术进步。这些衍生工作不仅丰富了现有的研究成果，还为未来的隐私保护技术提供了新的思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据，包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

中国森林病虫害

本数是中国森林病虫害。记录了1998-2000年森林虫害的持续时间、灾害大类、灾种、种类、成因、发生地区、主要受灾体描述、发生面积亩、发生面积公顷、损失立木、直接经济损失、减灾措施描述、灾情描述、灾害等级隶属性。

国家林业和草原科学数据中心收录