five

AutoAdvExBench

收藏
arXiv2025-03-04 更新2025-03-06 收录
下载链接:
https://github.com/ethz-spylab/AutoAdvExBench
下载链接
链接失效反馈
官方服务:
资源简介:
AutoAdvExBench是一个用于评估大型语言模型是否能自主利用对抗样本防御的基准。该数据集包含了51个真实世界的对抗样本防御实现,由ETH Zurich的研究人员创建。数据集涵盖了从arXiv抓取的论文中筛选出的与对抗机器学习相关的防御方法,并通过手动筛选确保了防御方法的多样性和可复现性。数据集旨在解决机器学习安全领域中的实际问题,为评估AI模型在对抗机器学习研究中的应用提供了一种新的、直接的度量方式。

AutoAdvExBench is a benchmark for evaluating whether large language models can autonomously utilize adversarial sample defenses. This dataset contains 51 real-world adversarial sample defense implementations created by researchers from ETH Zurich. It covers adversarial machine learning-related defense methods selected from papers scraped from arXiv, and ensures the diversity and reproducibility of these defense methods through manual screening. This benchmark aims to address practical issues in the field of machine learning security, and provides a novel and direct metric for evaluating the application of AI models in adversarial machine learning research.
提供机构:
ETH Zurich
创建时间:
2025-03-04
搜集汇总
数据集介绍
main_image_url
构建方式
AutoAdvExBench 数据集的构建方法是通过从 arXiv 上爬取与对抗性示例相关的论文,并筛选出包含对抗性示例防御实现的论文。这些论文的代码被重新实现或直接使用,以构建一个包含 51 个真实世界防御实现的测试集。此外,还从 Google 的自学习课程中添加了 24 个 CTF 式的对抗性示例防御实现,以提供一个更易于分析的子集。
特点
AutoAdvExBench 数据集的特点在于它是一个无代理的基准,直接测量大型语言模型在对抗性示例防御任务上的表现。与现有的安全基准不同,AutoAdvExBench 直接衡量大型语言模型在常规任务上的成功率,这些任务通常由机器学习安全专家执行。此外,该数据集还提供了对攻击成功率的连续测量,从而可以更精细地衡量模型能力的进步。
使用方法
使用 AutoAdvExBench 数据集的方法包括提供一个对抗性示例防御的描述和实现,并要求大型语言模型输出一组对抗性示例,以攻击该防御。模型可以接收有关防御方法的论文和代码,并输出对抗性示例。评估模型的方法是计算攻击成功率,即模型在攻击对抗性示例防御时的成功率。
背景与挑战
背景概述
AutoAdvExBench 数据集由 Nicholas Carlini, Javier Rando, Edoardo Debenedetti 和 Milad Nasr 等研究人员创建,旨在评估大型语言模型 (LLMs) 是否能够自主地利用对抗性示例防御。这个数据集直接衡量了 LLMs 在机器学习安全专家通常执行的任务上的成功情况,提供了一个显著的优点:如果一个 LLM 能够解决 AutoAdvExBench 中提出的挑战,那么它将立即为对抗性机器学习研究人员提供实用价值。AutoAdvExBench 数据集的创建时间是在2025年3月之前,它主要针对的是图像对抗性示例防御,因为这类防御的数量非常多。该数据集的设计理念是为了提供一个与真实世界应用尽可能接近的基准测试,评估 LLMs 在处理真实世界代码时的能力,而不是仅仅针对 CTF 式的练习。AutoAdvExBench 数据集的创建对于对抗性机器学习领域的研究具有重要的意义,它提供了一个新的评估 LLMs 能力的工具,有助于推动该领域的发展。
当前挑战
AutoAdvExBench 数据集面临的挑战主要包括:1) LLMs 在解决真实世界代码时的能力有限,尽管它们在处理 CTF 式的练习时表现良好,但在面对真实世界代码时,成功率却大大降低;2) 现有的安全基准测试通常依赖于简化的环境,这些环境有明确的解决方案,而真实世界环境则更加复杂和难以分析;3) 一些防御措施已经被公开发表过,这可能导致基准测试的污染,从而影响评估结果的准确性;4) 研究代码通常不够整洁,缺乏结构化和文档化,这使得 LLMs 在处理这类代码时面临更大的挑战。
常用场景
经典使用场景
AutoAdvExBench作为评估大型语言模型(LLMs)自主利用对抗样本防御能力的基准,旨在衡量LLMs在执行由机器学习安全专家常规执行的任务时的成功程度。此数据集的独特之处在于其直接测量LLMs在真实世界任务中的表现,而非作为某些安全任务的代理。如果LLMs能够解决AutoAdvExBench中的挑战,将立即为对抗机器学习研究人员提供实用价值。
解决学术问题
AutoAdvExBench解决了评估LLMs在安全任务中的能力的挑战,并揭示了现有安全基准与真实世界任务之间的差距。它强调了在实际应用中评估LLMs安全能力的必要性,并为未来设计更接近真实世界的安全基准提供了启示。此外,AutoAdvExBench还提供了对LLMs在软件工程、研究复制和自动AI利用方面能力的评估。
衍生相关工作
AutoAdvExBench的衍生工作可能包括设计更接近真实世界的安全基准,以评估LLMs在其他安全任务中的能力。此外,它还可能用于开发新的LLMs安全评估方法,以及改进LLMs在软件工程和研究复制方面的能力。最后,AutoAdvExBench可能有助于推动自动AI利用领域的研究,并为未来设计更安全的AI系统提供启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作