TabAttackBench
收藏arXiv2025-05-27 更新2025-05-29 收录
下载链接:
http://arxiv.org/abs/2505.21027v1
下载链接
链接失效反馈官方服务:
资源简介:
TabAttackBench是一个用于评估对抗攻击在表格数据上的有效性和不可感知性的基准数据集。该数据集由11个表格数据集组成,包括混合数据和仅数值数据集,旨在解决当前研究在表格数据对抗攻击中忽视不可感知性的问题。TabAttackBench的创建过程涉及评估五个对抗攻击算法在四个模型上的表现,通过分析攻击的成功率和不可感知性,为设计更有效和不可感知的对抗攻击算法提供有价值的信息。该数据集的应用领域主要涉及提高机器学习模型在表格数据上的鲁棒性和安全性,以应对对抗攻击带来的威胁。
TabAttackBench is a benchmark dataset for evaluating the effectiveness and imperceptibility of adversarial attacks on tabular data. It consists of 11 tabular datasets, including mixed-type and numeric-only datasets, aiming to address the issue that current research on tabular data adversarial attacks neglects the requirement of imperceptibility. The development of TabAttackBench involves evaluating five adversarial attack algorithms across four machine learning models, and provides valuable insights for designing more effective and imperceptible adversarial attack algorithms by analyzing attack success rates and imperceptibility levels. The main application scope of this dataset is to improve the robustness and security of machine learning models on tabular data to counter threats posed by adversarial attacks.
提供机构:
昆士兰科技大学信息系统学院, 昆士兰科技大学数据科学中心, 清华大学软件学院, 里斯本新里斯本大学NOVA信息管理学校, 悉尼科技大学数据科学研究所, 里斯本大学高级技术学院
创建时间:
2025-05-27
搜集汇总
数据集介绍

构建方式
TabAttackBench数据集的构建基于11个多样化的表格数据集,涵盖混合型和纯数值型数据,旨在评估对抗攻击在表格数据上的有效性和不可感知性。数据集经过标准化预处理,包括缺失值处理、特征编码和归一化,确保数据质量和一致性。对抗攻击的评估采用五种白盒攻击方法(FGSM、BIM、PGD、DeepFool和C&W),并在四种预测模型(逻辑回归、多层感知机、TabTransformer和FT-Transformer)上进行测试。通过系统化的实验设计,该数据集为研究表格数据对抗攻击的鲁棒性提供了全面的基准。
特点
TabAttackBench数据集的特点在于其全面性和多样性。数据集包含11个不同领域的表格数据,既有混合型数据(包含分类和数值特征),也有纯数值型数据,覆盖了从金融到医疗等多个应用场景。此外,数据集评估了五种对抗攻击方法,涵盖了无界攻击和有界攻击,以及四种不同的预测模型,确保了评估的广泛性和代表性。数据集还引入了四种不可感知性度量标准(接近性、稀疏性、偏差性和敏感性),为对抗攻击的隐蔽性提供了多维度评估。
使用方法
TabAttackBench数据集的使用方法包括三个主要步骤:首先,用户可以选择特定的数据集和预测模型进行对抗攻击评估;其次,通过配置不同的攻击参数(如扰动预算ε)生成对抗样本;最后,利用提供的评估指标(攻击成功率和不可感知性分数)分析攻击效果。数据集还支持用户自定义攻击方法和模型,以扩展研究范围。代码实现和实验流程已在GitHub上开源,便于复现和进一步研究。
背景与挑战
背景概述
TabAttackBench是由澳大利亚昆士兰科技大学、清华大学、里斯本新大学和悉尼科技大学的研究团队于2025年提出的对抗性攻击基准测试数据集。该数据集专注于表格数据这一长期被忽视但广泛存在于金融、医疗等关键领域的数据形态,旨在解决对抗性机器学习中关于表格数据的两个核心问题:攻击有效性与扰动不可感知性的平衡评估。研究团队通过系统分析5种攻击算法在11个异构表格数据集上的表现,建立了首个同时考虑特征空间接近度、稀疏性、分布偏离度和敏感性的多维评估体系,填补了现有基准测试主要针对图像数据的空白。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域问题层面,表格数据的异构特征(数值型与类别型混合)和复杂特征依赖关系导致传统基于图像数据的对抗攻击指标失效,需重新定义不可感知性标准;构建过程层面,需解决类别特征编码导致的维度爆炸问题(如Adult数据集经one-hot编码后维度达105维),以及不同特征类型(如偏态分布的数值特征与高基数类别特征)对扰动约束的差异化要求。此外,基准测试还需克服表格数据缺乏视觉直观性带来的对抗样本质量评估难题,为此研究团队创新性地提出了基于马氏距离的分布偏离检测方法。
常用场景
经典使用场景
TabAttackBench作为对抗攻击研究领域的重要基准,主要应用于评估表格数据对抗攻击算法的有效性和隐蔽性。在金融风控、医疗诊断等关键领域,该数据集通过模拟真实场景中的表格数据特征,为研究者提供了标准化测试平台。其典型使用场景包括比较不同白盒攻击方法(如FGSM、PGD、C&W等)在逻辑回归、多层感知机及Transformer架构模型上的攻击成功率,同时量化扰动样本的稀疏性、偏离度等隐蔽性指标。
衍生相关工作
该数据集催生了多个经典研究方向:Mathov等人基于其提出的特征异质性分析框架,开发了保留表格统计特性的约束攻击算法;Chernikova团队受隐蔽性指标启发,提出了FENCE防御系统;Zhou等人则利用其评估范式构建了面向表格数据的生成对抗网络防御体系。后续研究进一步拓展至黑盒攻击场景,如Cartella等人开发的针对欺诈检测系统的查询高效攻击算法,均以该基准作为核心评估标准。
数据集最近研究
最新研究方向
近年来,TabAttackBench数据集在对抗性机器学习领域引起了广泛关注,特别是在表格数据的对抗攻击研究方面。该数据集为评估对抗攻击在表格数据上的有效性和不可感知性提供了标准化基准。研究热点集中在如何设计既能有效欺骗机器学习模型又能保持数据不可感知性的对抗攻击算法。前沿研究方向包括探索不同攻击方法(如FGSM、PGD、BIM、C&W和DeepFool)在混合和纯数值数据集上的表现,以及如何通过优化技术(如进化算法和梯度优化)来平衡攻击效果与数据完整性。此外,该数据集的研究还涉及对抗攻击在不同模型架构(如逻辑回归、多层感知机、TabTransformer和FTTransformer)上的鲁棒性评估,为开发更安全的机器学习系统提供了重要参考。
相关研究论文
- 1TabAttackBench: A Benchmark for Adversarial Attacks on Tabular Data昆士兰科技大学信息系统学院, 昆士兰科技大学数据科学中心, 清华大学软件学院, 里斯本新里斯本大学NOVA信息管理学校, 悉尼科技大学数据科学研究所, 里斯本大学高级技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成



