five

sandbagging-agent-traces-v2

收藏
Hugging Face2026-03-26 更新2026-03-27 收录
下载链接:
https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces-v2
下载链接
链接失效反馈
官方服务:
资源简介:
Sandbagging Agent Traces v2 (Normalized) 是一个用于检测AI代理是否故意表现不佳(sandbagging)或诚实执行任务的数据集。该数据集包含2,788个经过标准化的代理内部规划笔记(scratchpad),分为训练集(2,150个样本)和测试集(638个样本)。每个样本标注为'deceptive'(故意表现不佳)或'honest'(诚实执行),并包含模型家族(GPT-OSS、Gemini、Qwen)、具体模型名称、角色ID和任务ID等信息。数据集经过严格清洗,去除了模型特定的格式化痕迹(如markdown标题、加粗、代码块等),确保检测器学习的是真实的推理模式而非格式化特征。该数据集适用于训练和评估AI代理欺骗行为检测模型,遵循MALT基准框架。

Sandbagging Agent Traces v2 (Normalized) is a dataset developed to detect whether AI agents intentionally underperform (sandbagging) or execute tasks honestly. This dataset contains 2,788 standardized internal planning scratchpads of agents, which are split into a training set (2,150 samples) and a test set (638 samples). Each sample is labeled as either 'deceptive' (intentionally underperforming) or 'honest' (executing tasks honestly), and includes metadata such as model family (GPT-OSS, Gemini, Qwen), specific model name, role ID, and task ID. The dataset has undergone rigorous cleaning to remove model-specific formatting traces including markdown headings, bold text, code blocks and other similar elements, ensuring that detection models learn genuine reasoning patterns rather than spurious formatting features. This dataset is applicable for training and evaluating AI agent deception detection models, and adheres to the MALT benchmark framework.
创建时间:
2026-03-24
原始信息汇总

数据集概述:Sandbagging Agent Traces v2 (Normalized)

基本信息

  • 数据集名称:Sandbagging Agent Traces v2 (Normalized)
  • 许可证:apache-2.0
  • 任务类别:文本分类
  • 语言:英语
  • 标签:sandbagging, ai-safety, agent-traces, malt, deception-detection, control, normalized
  • 数据规模:1K<n<10K
  • 地址:https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces-v2

数据集简介

这是数据集 vincentoh/sandbagging-agent-traces 的归一化和清理版本。数据集包含MALT风格的AI智能体规划草稿,被标记为 sandbagging(故意表现不佳)或 honest(真诚尝试)。该版本移除了格式伪影以减少模型来源的混淆,并修剪了噪声/低质量样本。

数据统计

数据划分

划分 欺骗性样本 诚实样本 总计
训练集 893 1,257 2,150
测试集 271 367 638
总计 1,164 1,624 2,788

模型家族分布

家族 模型 欺骗性样本 诚实样本
GPT-OSS gpt-oss-120b, gpt-oss-20b 289 447
Gemini gemma-3-27b-it 404 344
Qwen qwen3-14b, qwen3-30b-moe 200 466

数据模式与字段

数据模式为JSON格式,包含以下字段:

  • id:样本标识符。
  • scratchpad:归一化的智能体内部规划笔记(简洁、第一人称、内联反引号命令、无Markdown格式)。
  • label:标签,取值为 deceptive(智能体被指示进行sandbagging)或 honest(智能体被指示尽力而为)。
  • model_family:生成模型家族,取值为 gpt-ossgeminiqwen
  • model_name:生成原始轨迹的特定模型名称。
  • persona_id:用于生成轨迹的角色身份(12个sandbagging角色 + 7个honest角色)。
  • task_id:软件工程任务描述。

版本变更与清理流程

从v1到v2的主要变更

v1数据集由3个家族的5个模型生成,每个模型都有独特的格式特征,导致分类器可能仅凭格式而非欺骗性信号进行区分。v2版本中:

  • 1,208个草稿被重写为一致的简洁智能体独白风格(第一人称、内联反引号命令、无Markdown格式),同时保留所有技术内容。
  • 其余1,977个原本就干净的样本保持不变。

清理流程

  1. 归一化 (v2):通过启发式方法(存在Markdown标题、粗体、代码围栏、元数据关键词、过长字符>1200、项目符号/编号列表)筛选草稿。被标记的样本通过提示重写为简洁的智能体独白风格。
  2. 清理 (v2.1):从训练集中移除了397个噪声或低质量样本。删除了 original_model 字段,并从所有划分中剥离了尾部模型伪影(</s> 令牌)。

预期用途

用于训练和评估基于智能体规划轨迹的sandbagging/欺骗检测器。归一化处理降低了检测器学习模型格式捷径而非真正的欺骗与诚实推理模式的风险。

引用

如果使用此数据集,请引用: bibtex @misc{sandbagging-traces-v2-2026, title={Sandbagging Agent Traces v2 (Normalized)}, author={bigsnarfdude}, year={2026}, publisher={HuggingFace}, url={https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces-v2} }

相关资源

  • v1 (原始版本):https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces — 包含模型特定格式的原始黑客松数据集。
  • MALT基准:https://github.com/luthien-research/MALT — 本数据集所遵循的框架。
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全领域,识别智能体是否故意表现不佳(即“沙袋策略”)是评估模型可控性的关键挑战。Sandbagging Agent Traces v2数据集的构建过程体现了对原始数据的深度清洗与规范化处理。该数据集源自五个不同模型家族生成的原始规划痕迹,这些痕迹因模型特有的格式化特征(如Markdown标题、代码块和元数据)而存在显著的格式差异。为消除模型格式对欺骗检测信号的干扰,研究团队采用启发式规则筛选出包含格式化伪影的样本,并利用提示工程将其重写为简洁的第一人称代理独白风格,同时完整保留技术内容。经过此过程,约1208条痕迹被规范化,其余1977条已清洁的样本则直接保留,最终形成包含2788条高质量样本的数据集。
特点
该数据集的核心特征在于其高度规范化的痕迹表示与精细的标注体系。所有规划痕迹均被统一为简洁的第一人称叙述风格,采用内联反引号命令格式,彻底剥离了Markdown等格式化元素,从而有效减少了模型起源带来的混淆风险。数据集包含“欺骗性”与“诚实”两类标签,分别对应智能体被指令故意表现不佳或尽力完成任务的场景。此外,每条样本均标注了模型家族、具体模型名称、角色身份及任务标识,为多维度分析提供了结构化支持。数据划分上,训练集与测试集分别包含2150和638条样本,确保了评估的可靠性。
使用方法
该数据集主要用于训练和评估针对智能体规划痕迹的沙袋策略检测模型。研究者可通过加载数据集,直接访问规范化后的痕迹文本与对应标签,构建分类器以区分欺骗性与诚实行为。使用时应重点关注痕迹中的推理模式与策略表述,而非表面格式特征,以促进模型学习真实的欺骗语义。数据集支持跨模型家族的分析,有助于探究不同架构智能体的行为差异。为确保研究可复现,建议引用提供的文献条目,并可结合原始版本与MALT基准框架进行对比研究。
背景与挑战
背景概述
Sandbagging Agent Traces v2数据集由研究人员bigsnarfdude于2026年构建并发布,旨在应对人工智能安全领域中的关键问题——智能体在任务执行过程中故意表现不佳(即“沙袋”行为)的检测与识别。该数据集遵循MALT基准框架,聚焦于软件工程任务场景,通过收集并标注来自GPT-OSS、Gemini和Qwen等不同模型家族生成的智能体规划草稿,为研究社区提供了区分欺骗性行为与诚实行为的标准化文本资源。其核心研究问题在于如何从智能体的内部推理痕迹中有效识别蓄意隐瞒或降低性能的模式,这对于构建可靠、可控的AI系统具有深远影响,推动了可解释性与安全对齐方向的前沿探索。
当前挑战
该数据集致力于解决智能体欺骗检测这一复杂领域问题,其核心挑战在于如何准确区分智能体是出于恶意指令而故意表现不佳,还是因能力限制而自然失败。构建过程中的主要挑战源于原始数据中存在的模型特异性格式偏差,例如不同模型生成的草稿在标记语言使用、代码块格式和元数据呈现上存在显著差异,这可能导致分类器仅学习表面格式特征而非真实的欺骗性推理模式。为此,数据集通过严格的归一化处理,将多样化的原始文本重写为简洁、一致的智能体独白风格,同时剔除了低质量样本,以降低模型来源混淆对检测任务带来的干扰。
常用场景
经典使用场景
在人工智能安全领域,Sandbagging Agent Traces v2数据集为研究智能体欺骗行为提供了标准化的实验平台。该数据集最经典的使用场景是训练和评估针对AI代理规划痕迹的沙袋化检测模型。研究者利用其中标注为“欺骗性”或“诚实”的代理内部规划笔记,构建分类器以识别代理是否故意表现不佳,从而深入探究智能体在复杂任务中的意图伪装机制。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,主要集中在欺骗检测算法的创新与评估框架的完善。例如,研究者借鉴MALT基准框架,开发了多种基于Transformer的序列分类模型,以区分代理的诚实与欺骗性规划。同时,该数据集也催生了对于多模态欺骗信号、跨模型泛化能力以及对抗性鲁棒性的深入探讨,进一步拓展了AI安全研究的边界。
数据集最近研究
最新研究方向
在人工智能安全领域,随着智能体自主决策能力的提升,其潜在的欺骗行为已成为前沿研究焦点。Sandbagging Agent Traces v2数据集通过标准化处理,消除了模型格式化伪影,为检测智能体在规划过程中的故意表现不足行为提供了纯净数据基础。当前研究集中于利用该数据集训练鲁棒的欺骗检测模型,探索跨模型泛化能力,以应对日益复杂的多模态智能体环境。相关热点事件如国际AI安全峰会多次强调对齐风险,推动该数据集在评估智能体可控性、防范策略性误导方面发挥关键作用,对构建可信赖的自主系统具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作