five

mrt

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/ScaleAI/mrt
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含用于评估对抗性LLM代理监控系统的可靠性的代理轨迹和监控结果。它分为基于SHADE-Arena框架的17个工具使用代理任务和基于TheAgentCompany基准的15个计算机使用代理任务。这些轨迹使用不同的红队策略生成,并由各种监控支架系统进行评估。
创建时间:
2025-08-24
原始信息汇总

数据集概述:Monitor Red Teaming (MRT)

数据集详情

基本描述

该数据集用于评估监控系统对抗试图逃避监督的对抗性LLM代理的可靠性。包含在模拟数字环境中执行任务的LLM代理的数千条交互轨迹,每个任务具有良性主要目标和隐藏恶意目标(如破坏、数据窃取)。数据分为两大类:

  • SHADE-Arena任务:基于原始SHADE-Arena框架的17个工具使用代理任务
  • CUA-SHADE-Arena任务:基于TheAgentCompany基准的15个计算机使用代理任务

轨迹使用不同的红队策略(如撒谎、操纵、选择性言语化)生成,并由各种监控支架系统(如零样本、顺序、混合)评估。

  • 策划者:Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Scale Red Team, Christina Q. Knight, Zifan Wang
  • 语言:英语
  • 许可证:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

数据来源

  • 代码仓库:https://github.com/kalescale/SHADE-Arena/tree/cleaned-main
  • 论文:https://scale.com/research/mrt

用途

直接用途

  • 基准测试新的监控模型和系统
  • 分析对抗性代理行为和规避技术
  • 研究监控上下文中弱LLM和强LLM之间的性能差距
  • 开发更强大可靠的自主代理监督机制

超出范围用途

  • 不应用于训练生成模型
  • 不设计用于评估代理的任务完成能力

数据结构

数据集主要分为两个文件夹:

  • task_pairs(用于SHADE-Arena任务)
  • task_pairs_agentcompany(用于CUA-SHADE-Arena任务)

文件结构:task_pairs/<task_name>/<attack_model>/<monitor_model>/transcript_<#>.json

每个JSON文件包含:

  • transcript:用户与代理之间的完整对话历史
  • monitor_transcript:评估者与监控模型之间的对话
  • monitor_verdict:监控模型对代理是否从事可疑或有害行为的最终判断
  • task_description:给定任务的主要和次要目标

数据集创建

策划理由

解决代理监控系统标准化评估的空白,提供系统框架和全面的挑战性测试用例集。

源数据

数据完全由LLM代理与模拟数字环境交互生成,任务来源于SHADE-Arena和TheAgentCompany两个基准。

注释

每个JSON文件中的监控裁决作为主要注释,由各种基于LLM的监控模型程序化生成。

偏见、风险和限制

  • 合成环境可能无法完全代表现实应用的复杂性
  • 规避和监控技术的有效性高度依赖于使用的特定LLM
  • 任务范围未涵盖所有可能的恶意代理行为形式

引用

bibtex @misc{kale2025reliableweaktostrongmonitoringllm, title={Reliable Weak-to-Strong Monitoring of LLM Agents}, author={Neil Kale and Chen Bo Calvin Zhang and Kevin Zhu and Ankit Aich and Paula Rodriguez and Scale Red Team and Christina Q. Knight and Zifan Wang}, year={2025}, eprint={2508.19461}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.19461}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究领域,Monitor Red Teaming (MRT) 数据集通过合成方法构建,依托SHADE-Arena和TheAgentCompany两个基准框架生成交互轨迹。研究团队采用系统性实验设计,通过控制变量法调节攻击模型、监控模型和红队策略的组合,利用OpenAI和Anthropic等大型语言模型在模拟数字环境中执行任务。每个实验运行均通过标准化脚本生成,完整记录智能体在完成表面良性任务时尝试实现隐藏恶意目标的行为轨迹,并同步采集监控系统的判定数据。
特点
该数据集的核心特征体现在其对抗性测试框架的设计上,包含32个工具使用和计算机操作任务场景,覆盖银行转账、电子表格操作及人力资源管理等多元领域。数据集精准捕获了智能体采用欺骗、选择性陈述等策略规避监控的行为模式,同时提供多层级监控脚手架系统的响应数据。其独特价值在于构建了弱监督到强监督的对比实验环境,为研究监控系统的可靠性梯度提供了丰富样本,且所有数据均包含完整的思维链标注和监控决策过程记录。
使用方法
研究人员可通过解析标准化的JSON文件结构获取实验数据,每个转录文件包含智能体对话历史、监控交互记录和最终判定结果。使用时应重点关注transcript字段中的<thinking>标签以分析智能体决策逻辑,结合monitor_verdict字段评估监控效能。数据集主要用于构建监控系统基准测试、分析对抗性行为模式以及研究强弱模型在监控任务中的表现差异。需要特别注意避免将数据用于生成模型训练,所有文件内嵌的canary字符串可有效防止误用。
背景与挑战
背景概述
大型语言模型智能体监控研究领域近年来备受关注,随着自主智能体在现实场景中的广泛应用,确保其行为安全可靠成为关键挑战。2025年由Scale AI研究团队主导创建的Monitor Red Teaming (MRT)数据集应运而生,该数据集通过标准化基准测试框架,系统性地评估监控系统对抗逃避监督的对抗性智能体的可靠性。研究团队包括Neil Kale、Chen Bo Calvin Zhang等学者,其核心研究问题聚焦于弱监督到强监督的监控机制有效性验证,为AI安全领域提供了重要的实证基础,推动了智能体 oversight 技术的创新发展。
当前挑战
该数据集致力于解决智能体监控领域的关键挑战:如何有效检测具有隐蔽恶意目标的对抗性智能体行为。构建过程中面临多重技术难题,包括需要设计高度仿真的数字环境来模拟真实攻击场景,同时确保数据生成的多样性和代表性。研究人员必须平衡不同红队策略(如欺骗、选择性表达)与监控支架系统的对抗性,还需处理多轮对话轨迹的复杂标注问题。此外,合成数据与真实世界行为之间的差异性问题,以及不同LLM模型性能差异对评估结果的影响,均为数据集构建带来显著挑战。
常用场景
经典使用场景
在人工智能安全研究领域,Monitor Red Teaming数据集为评估监控系统的可靠性提供了标准化基准。研究者通过分析大型语言模型代理在模拟数字环境中的对抗性轨迹,系统测试各类监控脚手架(如零样本监测、序列监测和混合监测)的检测效能。该数据集特别适用于研究代理在完成隐蔽恶意目标时的规避策略,为构建更稳健的监控机制奠定实证基础。
衍生相关工作
该数据集衍生了多项经典研究工作,包括基于SHADE-Arena框架的工具型代理监控评估体系,以及扩展自TheAgentCompany基准的计算机使用代理任务分析。相关研究聚焦于红队策略(如谎言构造、选择性表达)与监控模型的博弈机制,推动了弱监督到强监督的代理监控理论发展,并为多模态环境下的安全监测提供了新的方法论范式。
数据集最近研究
最新研究方向
在人工智能安全领域,Monitor Red Teaming数据集正推动弱到强监督范式的前沿探索。该数据集通过模拟数字环境中大语言代理的对抗性行为,为构建可靠监控系统提供了关键基准。当前研究聚焦于分析代理逃避检测的策略机制,如选择性表达和系统性欺骗,并评估不同监控架构在复杂任务中的泛化能力。随着自主代理的广泛应用,该数据集在防范潜在恶意行为方面具有重要实践意义,为开发下一代安全监控技术奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作