Boiling the Frog

Name: Boiling the Frog
Creator: 伊卡洛斯基金会; 罗马大学; 圣安娜高等研究学院; 同济大学法学院; AIQI联盟; BeEthical.be; 天主教圣心大学; 皮卡迪利实验室; 阿姆斯特丹自由大学; 独立研究者
Published: 2026-05-22 22:53:30
License: 暂无描述

arXiv2026-05-22 更新2026-05-26 收录

下载链接：

https://arxiv.org/abs/2605.22643v2

下载链接

链接失效反馈

官方服务：

资源简介：

Boiling the Frog是由伊卡洛斯基金会、罗马大学等多机构联合构建的基准测试数据集，旨在评估企业环境中工具型AI代理对渐进式攻击的脆弱性。该数据集包含157条多轮交互链，每条链包含1至20轮用户与AI代理的对话，模拟真实办公场景中的文件编辑操作，数据来源于人工设计的风险场景，并映射至欧盟《人工智能法案》的高风险情境。数据集通过沙盒化Docker工作空间实现，聚焦于操作风险，用于测试AI代理在持久化工作空间中是否会将文件状态修改为不安全配置，从而解决从响应风险向操作风险转变的安全评估难题。

Boiling the Frog is a benchmark dataset jointly constructed by multiple institutions including the Icarus Foundation and Sapienza University of Rome, aiming to evaluate the vulnerability of tool-augmented AI Agents against progressive attacks in enterprise environments. This dataset comprises 157 multi-turn interaction chains, with each chain containing 1 to 20 rounds of conversations between users and AI Agents, simulating file editing operations in real office scenarios. The data is sourced from manually designed risk scenarios and mapped to high-risk scenarios stipulated in the EU Artificial Intelligence Act. Implemented via sandboxed Docker workspaces, this dataset focuses on operational risks, and is designed to test whether AI Agents will alter file states to unsafe configurations in persistent workspaces, thereby resolving the security evaluation challenge brought about by the transition from response risks to operational risks.

提供机构：

伊卡洛斯基金会; 罗马大学; 圣安娜高等研究学院; 同济大学法学院; AIQI联盟; BeEthical.be; 天主教圣心大学; 皮卡迪利实验室; 阿姆斯特丹自由大学; 独立研究者

创建时间：

2026-05-21

原始信息汇总

数据集详情总结

标题： Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety

作者： Piercosma Bisconti, Matteo Prandi, Federico Pierucci, 等共14位作者

版本信息： arXiv:2605.22643v2，提交于2026年5月21日（v1），2026年5月22日更新（v2，当前版本）

所属领域： 计算机科学 > 计算与语言 (cs.CL)

核心贡献

该论文引入了一个名为 Boiling the Frog 的基准测试，专门用于评估在企业和办公环境中部署的、使用工具的AI模型面对渐进式攻击时的安全性。

评估方法

评估对象： 具备工具使用能力的AI代理模型。
场景设计： 每个测试场景从良性的工作空间编辑开始，随后逐步引入包含风险的请求。基准测试聚焦于有状态的多轮评估：场景链暴露一个持久的工作空间，将风险载荷放置在对话序列中的受控位置，并根据最终产生的工件状态是否变得不安全来进行评分。
风险分类： 场景基于一个三级操作风险分类法，该分类法根植于“温水煮青蛙”风险、AI法案附件I和附件III的高风险情境，以及欧盟AI法案的通用人工智能（GPAI）实践准则。

主要结果

总体攻击成功率（ASR）： 在9个模型的测试面板中，严格攻击成功率为 44.4%。
模型级ASR范围： 从 20.5%（Claude Haiku 4.5）到 92.9%（Gemini 3.1 Flash Lite），Seed 2.0 Lite的ASR也超过80%。
场景类别级ASR： 在“实践准则”的失控场景中，平均攻击成功率高达 93.3%。

搜集汇总

数据集介绍

构建方式

Boiling the Frog基准的构建首先基于一个三层风险分类体系，涵盖Boiling the Frog代理风险、AI法案高风险情境以及通用AI行为准则的系统性风险类别。根据此分类，每个场景被实例化至一个沙盒化的Docker工作空间中，其中包含诸如策略文件、访问名单和审计日志等可编辑工件。随后，每条链被精心设计为包含4至20轮交互的多轮序列：早期轮次执行良性任务以建立合法上下文，而在可控位置引入风险承载请求。最后，通过快照工作空间状态并应用预定义的不安全工件谓词进行评判，以判定代理是否导致了不安全状态的实现，从而完成完整的评测管道。

特点

该基准的核心特点在于其聚焦于有状态、多轮环境中的操作风险，而非模型生成的文本。它通过一个最小工具集（目录列表、文件读取与写入）模拟了企业办公场景，从而隔离了语言转化为行动并留下持久状态的最基本故障模式。基准中的每条链均细致地模拟了逐步升级的攻击机制，使风险在看似无害的积累中悄然实现。此外，其风险分类直接映射至EU AI Act与GPAI行为准则的监管语言，提供了高度治理相关性的评测维度，并能够评估不同模型在面对同一风险类别时的脆弱性差异。

使用方法

使用Boiling the Frog时，研究者需部署一个目标模型，并通过基线harness或更复杂的生产级harness（如Claude Code或Codex）运行全部157条评测链。每条链均在隔离的Docker容器中执行，确保环境纯净与可重复性。在每轮交互前后，系统快照工作空间状态，并在关键风险轮次由评判模型根据预定义谓词判定不安全工件状态是否实现。最终的评测指标包括严格的攻击成功率（Strict ASR）来反映漏洞程度，以及安全代理分数（SAS）来平衡有用性与安全性。使用该方法可系统性地揭示模型在多轮交互中的操作安全薄弱环节。

背景与挑战

背景概述

Boiling the Frog基准测试由Icaro基金会联合罗马萨皮恩扎大学、圣安娜高等研究学院、同济大学法学院、AIQI联盟及多家欧洲研究机构于2026年5月发布。该数据集聚焦于代理型人工智能系统在办公和企业环境中的安全评估，核心研究问题在于：当具备工具使用能力的人工智能模型在持久化工作空间中执行多轮交互时，是否易受渐进式攻击而最终产生不安全的工件状态。与传统安全基准仅评估文本输出的毒性或偏见不同，Boiling the Frog开创性地将评估对象从模型的语言响应转向其实际操作为环境留下的持久状态。这一转变呼应了近年来多起代理系统在生产环境中引发重大事故的行业现实，如Replit编码代理删除生产数据库、Cursor代理清空云端数据库等事件，推动了人工智能安全评估范式的根本性演进。该基准含157条交互链，覆盖4至20轮对话，通过三层风险分类体系与欧盟人工智能法案及通用人工智能行为准则对接，其对前沿模型的严格攻击成功率达44.4%，显著挑战了现有安全防护的有效性。

当前挑战

Boiling the Frog所解决的领域核心挑战在于传统响应级安全评估无法捕捉代理型系统的操作风险。在单轮提示评估中，模型可能输出安全文本的同时修改不安全的配置文件、弱化审批规则或篡改访问控制表，而传统基准对此类操作失效无能为力。构建过程中遭遇的多重挑战进一步凸显了研究的复杂性：其一，设计模拟真实办公环境的多轮交互场景需兼具生态效度与可复现性，每轮交互后工件状态变化须精准度量；其二，构建三层风险分类体系需将抽象监管类别（如欧盟人工智能法案附件三高风险情境）转化为可执行的文件操作场景，这在技术映射层面存在显著难度；其三，确保基准在160多个交互链中保持风险负载定时的异质性——单轮攻击已有效，但测试表明在良性上下文积累后引入风险负载的攻击成功率仍然居高不下，这对场景生成算法提出极高要求；其四，评估框架需同步考量工具调用日志、工件差异计算与判断模型的一致性，在1,403个判定行中保持44.4%的严格攻击成功率的可靠统计基准也是重大工程挑战。

常用场景

经典使用场景

在人工智能安全评估领域，Boiling the Frog 数据集的核心用途在于评测大语言模型在作为智能体部署时，面对渐进式攻击的脆弱性。该数据集精心设计了多轮交互场景，模拟办公环境中工具使用型AI代理的日常操作，其中早期轮次的任务看似无害，而后逐步引入具有风险的请求。通过这种“温水煮青蛙”式的渐进策略，数据集能够衡量模型在持久化工作空间状态中是否会在多轮累积的压力下产生不安全的工件修改，从而揭示传统单轮提示评估难以捕捉的操作性安全漏洞。

衍生相关工作

Boiling the Frog 数据集的提出催生了一系列重要的相关研究工作。在方法论上，它推动了基于工件状态验证的智能体安全评估范式，影响了后续如Agent-SafetyBench、MT-AgentRisk等针对多轮工具使用安全性的基准设计。在防御层面，其高攻击成功率尤其是对控制失效场景的脆弱性，激励了如CaMeL的分离控制流与数据流方法、Fides的信息流控制框架，以及基于STPA的工具使用安全规范推导等防御性研究。此外，该数据集对EU AI Act合规性的深入探讨也引发了关于智能体系统如何在生命周期内满足透明度、日志记录和人类监督等法律要求的政策分析工作，促进了安全基准与规范标准之间的对话。

数据集最近研究