five

BackdoorMBTI|后门防御数据集|多模态学习数据集

收藏
arXiv2024-11-17 更新2024-11-20 收录
后门防御
多模态学习
下载链接:
https://anonymous.4open.science/r/BackdoorMBTI-D6A1/README.md
下载链接
链接失效反馈
资源简介:
BackdoorMBTI是由上海交通大学创建的多模态后门学习基准工具包,旨在评估后门防御方法。该数据集涵盖了图像、文本和音频三种代表性模态,包含11个常用数据集,涉及对象分类、面部识别、情感分析等多个应用场景。数据集的创建过程包括数据处理、数据中毒、后门训练和评估,确保了系统的后门学习流程。BackdoorMBTI的应用领域主要集中在多模态后门防御研究,旨在解决后门攻击在多模态环境下的防御问题。
提供机构:
上海交通大学
创建时间:
2024-11-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
BackdoorMBTI 数据集的构建方式体现了其在多模态后门学习领域的开创性。该数据集整合了来自十一个常用数据集的三种代表性模态(图像、文本和音频),并提供了一个系统的后门学习流程,包括数据处理、数据投毒、后门训练和评估。通过这种方式,BackdoorMBTI 生成了包含后门的数据集和模型,从而能够对后门防御方法进行详细评估。
特点
BackdoorMBTI 数据集的主要特点在于其多模态性和系统性。它不仅支持图像、文本和音频三种模态,还涵盖了多种分类任务场景,并将攻击范围从计算机视觉扩展到音频和文本领域。此外,BackdoorMBTI 还考虑了数据质量和标签错误等实际因素,提供了标准化的处理方法,确保了在多模态环境下的公平评估。
使用方法
BackdoorMBTI 数据集的使用方法主要包括数据处理、数据投毒、后门训练和评估四个模块。用户可以通过访问生成的后门数据集和模型,对后门防御方法进行评估。此外,BackdoorMBTI 还提供了开源的后门学习框架,支持图像、文本和音频任务,并提供了统一的评估管道,便于用户进行扩展和自定义。
背景与挑战
背景概述
随着人工智能技术的广泛应用,神经网络已成为现代生活中不可或缺的一部分,处理来自各种设备和应用的多样化数据。然而,近年来出现的后门攻击对深度学习系统构成了重大挑战,攻击者能够在神经网络中插入后门。当带有触发器的数据被后门模型处理时,会导致攻击者预期的错误预测,而正常数据则产生常规结果。后门攻击的范围已从计算机视觉扩展到自然语言处理和语音识别等领域。尽管现有的后门防御方法通常针对特定的数据模态,但多模态学习在面部识别、情感分析、动作识别和视觉问答等应用中显示出高度适用性,其安全性仍是一个关键问题。具体而言,目前尚无针对多模态应用或相关任务的后门基准。为了促进多模态后门研究,我们引入了BackdoorMBTI,这是首个专为多模态评估设计的后门学习工具包和基准,涵盖了从十一个常用数据集中提取的三种代表性模态。BackdoorMBTI提供了一个系统的后门学习流程,包括数据处理、数据中毒、后门训练和评估。生成的毒数据集和后门模型能够详细评估后门防御方法。
当前挑战
BackdoorMBTI在构建过程中面临多个挑战。首先,多模态数据的复杂性使得在多模态领域进行研究和评估防御方法变得困难,导致对其有效性的不确定性。其次,缺乏标准化的评估基线使得难以对不同算法进行客观评估。最后,当前的解决方案往往忽视了数据质量和错误标签等实际因素,削弱了其在现实世界中的整体效能。此外,攻击和防御可能涉及许多私有参数,使得在标准基线下评估它们变得困难。为了解决这些问题,BackdoorMBTI提供了一个统一的管道,确保在多模态上下文中的公平评估,并考虑了数据质量和错误标签等因素,从而区别于其他基准。
常用场景
经典使用场景
BackdoorMBTI 数据集在多模态后门防御评估中展现了其经典应用场景。该数据集通过整合图像、文本和音频三种代表性模态,提供了系统的后门学习流程,包括数据处理、数据投毒、后门训练和评估。这使得研究人员能够详细评估后门防御方法的有效性,特别是在多模态环境下的表现。
解决学术问题
BackdoorMBTI 数据集解决了多模态环境下后门攻击防御的常见学术研究问题。它填补了现有后门防御方法在多模态应用中的空白,提供了标准化评估基准,有助于客观评估不同算法的性能。此外,该数据集考虑了数据质量和错误标签等实际因素,增强了防御方法在真实世界中的有效性。
衍生相关工作
BackdoorMBTI 数据集催生了一系列相关的经典工作。例如,基于该数据集的研究推动了多模态后门攻击和防御方法的发展,包括数据投毒攻击、训练控制攻击和模型修改攻击等。此外,该数据集还促进了对抗性神经网络和后门检测技术的发展,为多模态深度学习系统的安全研究提供了新的方向和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

FAOSTAT

FAOSTAT provides time-series data about agriculture, nutrition, fisheries, forestry and food aid by country and region from 1961 to present. FAOSTAT is a multilingual database. Data can be searched, browsed, and downloaded.

re3data.org 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

IXI Dataset

IXI数据集包含近600张来自正常健康受试者的MRI图像,包括T1、T2、PD加权图像、MRA图像和扩散加权图像。数据集在Hammersmith医院、Guy’s医院和Institute of Psychiatry使用不同系统进行扫描。

github 收录