mrt

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/ScaleAI/mrt

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含用于评估对抗性LLM代理监控系统的可靠性的代理轨迹和监控结果。它分为基于SHADE-Arena框架的17个工具使用代理任务和基于TheAgentCompany基准的15个计算机使用代理任务。这些轨迹使用不同的红队策略生成，并由各种监控支架系统进行评估。

创建时间：

2025-08-24

原始信息汇总

数据集概述：Monitor Red Teaming (MRT)

数据集详情

基本描述

该数据集用于评估监控系统对抗试图逃避监督的对抗性LLM代理的可靠性。包含在模拟数字环境中执行任务的LLM代理的数千条交互轨迹，每个任务具有良性主要目标和隐藏恶意目标（如破坏、数据窃取）。数据分为两大类：

SHADE-Arena任务：基于原始SHADE-Arena框架的17个工具使用代理任务
CUA-SHADE-Arena任务：基于TheAgentCompany基准的15个计算机使用代理任务

轨迹使用不同的红队策略（如撒谎、操纵、选择性言语化）生成，并由各种监控支架系统（如零样本、顺序、混合）评估。

策划者：Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Scale Red Team, Christina Q. Knight, Zifan Wang
语言：英语
许可证：Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

数据来源

代码仓库：https://github.com/kalescale/SHADE-Arena/tree/cleaned-main
论文：https://scale.com/research/mrt

用途

直接用途

基准测试新的监控模型和系统
分析对抗性代理行为和规避技术
研究监控上下文中弱LLM和强LLM之间的性能差距
开发更强大可靠的自主代理监督机制

超出范围用途

不应用于训练生成模型
不设计用于评估代理的任务完成能力

数据结构

数据集主要分为两个文件夹：

task_pairs（用于SHADE-Arena任务）
task_pairs_agentcompany（用于CUA-SHADE-Arena任务）

文件结构：task_pairs/<task_name>/<attack_model>/<monitor_model>/transcript_<#>.json

每个JSON文件包含：

transcript：用户与代理之间的完整对话历史
monitor_transcript：评估者与监控模型之间的对话
monitor_verdict：监控模型对代理是否从事可疑或有害行为的最终判断
task_description：给定任务的主要和次要目标

数据集创建

策划理由

解决代理监控系统标准化评估的空白，提供系统框架和全面的挑战性测试用例集。

源数据

数据完全由LLM代理与模拟数字环境交互生成，任务来源于SHADE-Arena和TheAgentCompany两个基准。

注释

每个JSON文件中的监控裁决作为主要注释，由各种基于LLM的监控模型程序化生成。

偏见、风险和限制

合成环境可能无法完全代表现实应用的复杂性
规避和监控技术的有效性高度依赖于使用的特定LLM
任务范围未涵盖所有可能的恶意代理行为形式

引用

bibtex @misc{kale2025reliableweaktostrongmonitoringllm, title={Reliable Weak-to-Strong Monitoring of LLM Agents}, author={Neil Kale and Chen Bo Calvin Zhang and Kevin Zhu and Ankit Aich and Paula Rodriguez and Scale Red Team and Christina Q. Knight and Zifan Wang}, year={2025}, eprint={2508.19461}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.19461}, }

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，Monitor Red Teaming (MRT) 数据集通过合成方法构建，依托SHADE-Arena和TheAgentCompany两个基准框架生成交互轨迹。研究团队采用系统性实验设计，通过控制变量法调节攻击模型、监控模型和红队策略的组合，利用OpenAI和Anthropic等大型语言模型在模拟数字环境中执行任务。每个实验运行均通过标准化脚本生成，完整记录智能体在完成表面良性任务时尝试实现隐藏恶意目标的行为轨迹，并同步采集监控系统的判定数据。

特点

该数据集的核心特征体现在其对抗性测试框架的设计上，包含32个工具使用和计算机操作任务场景，覆盖银行转账、电子表格操作及人力资源管理等多元领域。数据集精准捕获了智能体采用欺骗、选择性陈述等策略规避监控的行为模式，同时提供多层级监控脚手架系统的响应数据。其独特价值在于构建了弱监督到强监督的对比实验环境，为研究监控系统的可靠性梯度提供了丰富样本，且所有数据均包含完整的思维链标注和监控决策过程记录。

使用方法

研究人员可通过解析标准化的JSON文件结构获取实验数据，每个转录文件包含智能体对话历史、监控交互记录和最终判定结果。使用时应重点关注transcript字段中的<thinking>标签以分析智能体决策逻辑，结合monitor_verdict字段评估监控效能。数据集主要用于构建监控系统基准测试、分析对抗性行为模式以及研究强弱模型在监控任务中的表现差异。需要特别注意避免将数据用于生成模型训练，所有文件内嵌的canary字符串可有效防止误用。

背景与挑战

背景概述

大型语言模型智能体监控研究领域近年来备受关注，随着自主智能体在现实场景中的广泛应用，确保其行为安全可靠成为关键挑战。2025年由Scale AI研究团队主导创建的Monitor Red Teaming (MRT)数据集应运而生，该数据集通过标准化基准测试框架，系统性地评估监控系统对抗逃避监督的对抗性智能体的可靠性。研究团队包括Neil Kale、Chen Bo Calvin Zhang等学者，其核心研究问题聚焦于弱监督到强监督的监控机制有效性验证，为AI安全领域提供了重要的实证基础，推动了智能体 oversight 技术的创新发展。

当前挑战

该数据集致力于解决智能体监控领域的关键挑战：如何有效检测具有隐蔽恶意目标的对抗性智能体行为。构建过程中面临多重技术难题，包括需要设计高度仿真的数字环境来模拟真实攻击场景，同时确保数据生成的多样性和代表性。研究人员必须平衡不同红队策略（如欺骗、选择性表达）与监控支架系统的对抗性，还需处理多轮对话轨迹的复杂标注问题。此外，合成数据与真实世界行为之间的差异性问题，以及不同LLM模型性能差异对评估结果的影响，均为数据集构建带来显著挑战。

常用场景

经典使用场景

在人工智能安全研究领域，Monitor Red Teaming数据集为评估监控系统的可靠性提供了标准化基准。研究者通过分析大型语言模型代理在模拟数字环境中的对抗性轨迹，系统测试各类监控脚手架（如零样本监测、序列监测和混合监测）的检测效能。该数据集特别适用于研究代理在完成隐蔽恶意目标时的规避策略，为构建更稳健的监控机制奠定实证基础。

衍生相关工作

该数据集衍生了多项经典研究工作，包括基于SHADE-Arena框架的工具型代理监控评估体系，以及扩展自TheAgentCompany基准的计算机使用代理任务分析。相关研究聚焦于红队策略（如谎言构造、选择性表达）与监控模型的博弈机制，推动了弱监督到强监督的代理监控理论发展，并为多模态环境下的安全监测提供了新的方法论范式。

数据集最近研究