five

TabularBench|深度学习数据集|对抗鲁棒性数据集

收藏
arXiv2024-08-14 更新2024-08-16 收录
深度学习
对抗鲁棒性
下载链接:
https://github.com/serval-uni-lu/tabularbench
下载链接
链接失效反馈
资源简介:
TabularBench是由卢森堡大学创建的一个综合基准数据集,专门用于评估表格深度学习分类模型的对抗鲁棒性。该数据集包含五个关键领域(金融、医疗保健和安全等)的真实和合成数据,数据量达到数十万条。数据集的创建过程结合了最新的数据增强技术和对抗训练方法,旨在解决表格数据在对抗攻击下的鲁棒性问题。TabularBench的应用领域广泛,特别是在需要高度安全性和准确性的机器学习模型中,如金融评分和医疗诊断。
提供机构:
卢森堡大学
创建时间:
2024-08-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
TabularBench数据集的构建方式是通过精选五组真实世界应用中的表格数据,并对其进行特征关系和约束条件的分析。这些数据集被扩展了数十万个真实的合成输入,以提供更多的训练和评估模型的机会。同时,数据集还包括了七种受计算机视觉领域启发的鲁棒化机制,这些机制被用于训练超过200个表格深度学习模型。此外,数据集还包含了对抗性训练和无对抗性训练的模型,以及有和无数据增强的模型。
特点
TabularBench数据集的特点在于其全面性和实用性。首先,它包含了真实世界应用中的数据集,这些数据集具有特征关系和约束条件,这使得它成为评估表格深度学习模型鲁棒性的理想选择。其次,数据集包含了多种鲁棒化机制和训练策略,使得研究者可以比较不同方法的有效性。最后,数据集提供了API访问接口,方便研究者使用。
使用方法
使用TabularBench数据集的方法包括以下步骤:首先,从数据集动物园中选择一个数据集,并获取其元数据和预定义的约束条件。然后,从模型动物园中选择一个预训练的模型,并进行微调。接下来,使用TabularBench API生成排行榜,并报告模型的准确性和鲁棒性。最后,研究者可以根据排行榜上的结果,选择最佳的模型和鲁棒化机制。
背景与挑战
背景概述
TabularBench数据集是在计算机视觉领域对对抗鲁棒性研究相对成熟的背景下提出的。尽管深度学习模型在表格数据领域已展现出强大的能力,但针对表格数据的对抗攻击及其防御研究相对滞后。TabularBench数据集的创建旨在填补这一研究空白,为表格深度学习模型的鲁棒性提供一个全面的标准基准。该数据集由卢森堡大学和LIST/RIKEN AIP Luxembourg的研究人员共同创建,并首次对表格深度学习分类模型的鲁棒性进行了评估。TabularBench数据集的创建对相关领域具有重要意义,它不仅为研究者提供了一个实证理解模型架构和鲁棒化机制对表格数据模型架构影响的机会,也为该领域的研究提供了可靠、高质量的基准。
当前挑战
TabularBench数据集面临的挑战主要包括:1) 表格数据中特征之间的约束关系。这些约束关系往往是非凸的或不可微分的,这使得现有的基于梯度下降的攻击算法在生成有效的对抗样本时变得无效。2) 特征工程。表格机器学习模型通常涉及特定的特征工程,这些特征对攻击者来说是不可见的,这要求新的威胁模型必须考虑到这些特性。3) 缺乏对抗性防御的有效性评估。尽管对抗训练被认为是防御对抗攻击的唯一可靠方法,但其他防御方法在攻击者知晓并执行自适应攻击时往往被证明是无效的。4) 缺乏多类分类的评估。TabularBench数据集主要关注二元表格分类,而对于多类分类的评估则有待进一步研究。
常用场景
经典使用场景
TabularBench是一个用于评估表格深度学习分类模型鲁棒性的基准测试,旨在填补表格数据对抗攻击研究中的空白。该数据集用于评估和比较不同深度学习架构和防御机制在真实世界场景下的表现,特别是在金融、医疗和安全领域。研究人员可以利用TabularBench进行对抗训练,数据增强和评估模型的鲁棒性,从而提高模型的可靠性和安全性。
实际应用
TabularBench的实际应用场景包括金融、医疗和安全领域。在金融领域,TabularBench可用于评估和改进信贷评分系统的鲁棒性,以防止欺诈行为。在医疗领域,TabularBench可用于评估和改进医疗诊断系统的鲁棒性,以提高诊断的准确性和可靠性。在安全领域,TabularBench可用于评估和改进网络安全系统的鲁棒性,以防止网络攻击。TabularBench为这些领域的模型开发人员提供了一个强大的工具,帮助他们构建更加可靠和安全的系统。
衍生相关工作
TabularBench的衍生相关工作包括对抗攻击算法的改进和防御机制的增强。研究人员可以利用TabularBench进行对抗攻击算法的评估和改进,以提高攻击的有效性和效率。同时,TabularBench也为防御机制的增强提供了数据集和评估方法,有助于研究人员开发更加可靠和安全的防御策略。TabularBench的衍生相关工作还包括对抗训练和数据增强技术的改进,以提高模型的鲁棒性和泛化能力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Global Water Quality Dataset

该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。

www.kaggle.com 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录