five

BAD-ACTS

收藏
arXiv2025-08-22 更新2025-08-26 收录
下载链接:
https://github.com/JNoether/BAD-ACTS
下载链接
链接失效反馈
官方服务:
资源简介:
BAD-ACTS数据集旨在评估基于LLM的代理系统在面对旨在诱使其执行有害行为的攻击时的鲁棒性。该数据集由四个不同应用环境中的代理系统实现以及188个高质量的有害行为示例组成。这些示例涵盖了代理系统可能造成的各种潜在危害,包括执行未经授权的操作、将恶意代码注入软件以及生成有害内容等。该数据集模块化和可扩展,允许在未来工作中根据需要包括更多环境和数据点。BAD-ACTS为代理系统的安全性研究提供了一个多样化的测试平台,有助于评估代理系统在面对恶意行为和代理间的操纵尝试时的鲁棒性。

The BAD-ACTS dataset aims to evaluate the robustness of LLM-based agent systems against attacks that attempt to induce them to perform harmful behaviors. This dataset consists of agent system implementations across four distinct application environments and 188 high-quality harmful behavior examples. These examples cover a wide range of potential harms that agent systems may cause, including unauthorized operations, injecting malicious code into software, generating harmful content, and more. This dataset is modular and scalable, allowing for the inclusion of additional environments and data points as needed in future work. BAD-ACTS provides a diverse testbed for security research on agent systems, facilitating the evaluation of their robustness against malicious behaviors and inter-agent manipulation attempts.
提供机构:
德国萨尔布吕肯的MPI-SWS研究所
创建时间:
2025-08-22
原始信息汇总

BAD-ACTS Benchmark 数据集概述

数据集简介

BAD-ACTS(Benchmark of ADversarial ACTionS)是一个综合性基准测试,旨在评估智能体系统对抗对抗性操纵的鲁棒性,这些操纵可能导致有害或不期望的行为。该基准测试在论文《Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harmful Actions》中提出,提供了一个结构化框架来分析不同类型智能体系统对对抗性影响的敏感性。

数据集内容

  • 环境代码:包含四个基准测试环境的源代码(旅行规划、金融文章撰写、代码生成和多智能体辩论)
  • 对抗性动作数据集:包含有害动作的数据集文件(BAD-ACTS.csv)
  • 智能体实现:对抗性和防御性智能体的实现代码
  • 评估功能:针对每个环境定制的评估函数
  • 实验脚本:运行个体实验和批量实验的脚本工具

技术特性

  • 支持模型:兼容通过Ollama托管的模型和OpenAI模型
  • 实验环境:旅行规划、金融文章撰写、代码生成、多智能体辩论
  • 防护机制:支持对抗性动作警告(AAW)提示和守护智能体干预功能
  • 实验追踪:支持通过唯一标识符进行实验追踪和日志记录

使用要求

  • Python 3.10或更高版本
  • 使用OpenAI API需要设置OPENAI_API_KEY环境变量

实验运行方式

  • 个体实验:通过run_experiments.py脚本运行,可自定义环境、模型和智能体参数
  • 批量实验:通过scripts目录下的批处理脚本运行全规模实验
搜集汇总
数据集介绍
main_image_url
构建方式
BAD-ACTS数据集的构建采用系统化方法,首先通过文献综述和实际案例分析建立了一个涵盖多类型有害行为的分类体系。在此基础上,研究团队设计了四个典型的多智能体应用环境(旅行规划、金融文章撰写、代码生成和多智能体辩论),每个环境配备特定角色智能体和模拟工具。数据收集阶段采用大语言模型生成与人工审核相结合的方式:使用Llama-3和GPT-4在给定环境描述和分类标签下生成初始样本,随后通过多轮人工校验确保188个高质量有害行为样本的多样性和准确性,每个样本均标注了细粒度危害类别。
特点
该数据集的核心特征体现在三个维度:环境多样性覆盖旅行规划、金融写作、代码生成和辩论四大典型应用场景;危害类型完整性包含恶意软件生成、隐私泄露、虚假信息传播等18个细分子类;评估体系创新性采用关键词匹配替代传统LLM评判,提升攻击成功率检测的准确性和稳定性。数据集采用模块化设计允许灵活扩展新环境或数据点,且所有工具均为模拟实现以避免真实世界损害,为智能体系统安全性研究提供既全面又安全的测试基准。
使用方法
使用BAD-ACTS进行评估时,研究者需首先选择目标环境和智能体模型,随后从数据集中选取特定有害行为作为攻击目标。评估过程中允许攻击者完全控制单个智能体,通过恶意通信操纵其他智能体执行目标动作。系统通过监测工具调用记录和消息内容中的关键词语来判定攻击是否成功,而非依赖可能产生偏差的LLM评判。基准测试支持对抗性策略效果评估、防御机制验证以及跨模型安全性对比分析,为智能体系统鲁棒性研究提供标准化实验框架。
背景与挑战
背景概述
BAD-ACTS数据集由马克斯·普朗克软件系统研究所(MPI-SPS)的Jonathan Nöther、Adish Singla与Goran Radanović等研究人员于2025年创建,旨在系统评估基于大语言模型(LLM)的智能体系统在对抗性攻击下的安全性。该数据集聚焦于智能体系统在多重应用环境中执行有害行为的潜在风险,涵盖旅行规划、金融文章撰写、代码生成与多智能体辩论四大场景,包含188个高质量有害行为实例。其核心研究问题在于揭示智能体系统在遭受内部敌对智能体操纵时的脆弱性,推动安全防御机制的发展,对人工智能安全与多智能体系统研究领域具有重要影响力。
当前挑战
BAD-ACTS需解决智能体系统在执行图像分类、代码生成等任务时易受内部敌对智能体诱导产生有害行为的核心挑战,具体包括未经授权操作、恶意代码注入及有害内容生成等风险。构建过程中的挑战涉及多环境有害行为样本的收集与标注,需确保样本的多样性与高质量;同时,设计模块化且可扩展的基准测试框架以支持不同通信结构与工具组合的评估亦具较高复杂度。此外,需开发稳健的评价机制以避免基于LLM的评判模型因过度严格而误判攻击成功案例。
常用场景
经典使用场景
在智能体系统安全研究领域,BAD-ACTS数据集被广泛应用于评估多智能体系统在对抗性攻击下的鲁棒性。该数据集通过模拟旅行规划、金融文章撰写、代码生成和多智能体辩论四种典型环境,为研究者提供了测试智能体在遭受恶意操控时执行有害行为的标准化场景。其模块化设计支持灵活扩展,使得研究人员能够针对不同通信结构和工具组合开展安全性测试,为智能体系统的防御机制开发奠定基础。
解决学术问题
BAD-ACTS数据集系统性地解决了智能体系统安全研究中缺乏标准化评估基准的问题。通过构建包含188个高质量有害行为的分类体系,该数据集使研究者能够量化分析智能体在面临权限滥用、恶意代码注入、隐私泄露等11类安全威胁时的脆弱性。其意义在于首次实现了对多智能体系统中对抗性操纵风险的跨模型、跨场景的可比性研究,揭示了现有大语言模型智能体在安全对齐训练方面的局限性,推动了智能体安全防御理论的发展。
衍生相关工作
该数据集催生了多项智能体安全领域的创新研究。基于BAD-ACTS的评估框架,研究者开发了守护智能体(Guardian Agent)防御机制,通过消息监控有效降低50%的攻击成功率。后续工作扩展了对抗策略研究,包括Zou等人提出的电路断路器防御技术、Debenedetti开发的AgentDojo动态测试环境,以及Yu等人针对自定义GPT的提示注入攻击研究。这些衍生工作共同构成了智能体系统安全研究的生态系统,推动着对抗性防御技术的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作