mrt
收藏数据集概述:Monitor Red Teaming (MRT)
数据集详情
基本描述
该数据集用于评估监控系统对抗试图逃避监督的对抗性LLM代理的可靠性。包含在模拟数字环境中执行任务的LLM代理的数千条交互轨迹,每个任务具有良性主要目标和隐藏恶意目标(如破坏、数据窃取)。数据分为两大类:
- SHADE-Arena任务:基于原始SHADE-Arena框架的17个工具使用代理任务
- CUA-SHADE-Arena任务:基于TheAgentCompany基准的15个计算机使用代理任务
轨迹使用不同的红队策略(如撒谎、操纵、选择性言语化)生成,并由各种监控支架系统(如零样本、顺序、混合)评估。
- 策划者:Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Scale Red Team, Christina Q. Knight, Zifan Wang
- 语言:英语
- 许可证:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
数据来源
- 代码仓库:https://github.com/kalescale/SHADE-Arena/tree/cleaned-main
- 论文:https://scale.com/research/mrt
用途
直接用途
- 基准测试新的监控模型和系统
- 分析对抗性代理行为和规避技术
- 研究监控上下文中弱LLM和强LLM之间的性能差距
- 开发更强大可靠的自主代理监督机制
超出范围用途
- 不应用于训练生成模型
- 不设计用于评估代理的任务完成能力
数据结构
数据集主要分为两个文件夹:
task_pairs(用于SHADE-Arena任务)task_pairs_agentcompany(用于CUA-SHADE-Arena任务)
文件结构:task_pairs/<task_name>/<attack_model>/<monitor_model>/transcript_<#>.json
每个JSON文件包含:
transcript:用户与代理之间的完整对话历史monitor_transcript:评估者与监控模型之间的对话monitor_verdict:监控模型对代理是否从事可疑或有害行为的最终判断task_description:给定任务的主要和次要目标
数据集创建
策划理由
解决代理监控系统标准化评估的空白,提供系统框架和全面的挑战性测试用例集。
源数据
数据完全由LLM代理与模拟数字环境交互生成,任务来源于SHADE-Arena和TheAgentCompany两个基准。
注释
每个JSON文件中的监控裁决作为主要注释,由各种基于LLM的监控模型程序化生成。
偏见、风险和限制
- 合成环境可能无法完全代表现实应用的复杂性
- 规避和监控技术的有效性高度依赖于使用的特定LLM
- 任务范围未涵盖所有可能的恶意代理行为形式
引用
bibtex @misc{kale2025reliableweaktostrongmonitoringllm, title={Reliable Weak-to-Strong Monitoring of LLM Agents}, author={Neil Kale and Chen Bo Calvin Zhang and Kevin Zhu and Ankit Aich and Paula Rodriguez and Scale Red Team and Christina Q. Knight and Zifan Wang}, year={2025}, eprint={2508.19461}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.19461}, }




