sandbagging-agent-traces-v2

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Sandbagging Agent Traces v2 (Normalized) 是一个用于检测AI代理是否故意表现不佳（sandbagging）或诚实执行任务的数据集。该数据集包含2,788个经过标准化的代理内部规划笔记（scratchpad），分为训练集（2,150个样本）和测试集（638个样本）。每个样本标注为'deceptive'（故意表现不佳）或'honest'（诚实执行），并包含模型家族（GPT-OSS、Gemini、Qwen）、具体模型名称、角色ID和任务ID等信息。数据集经过严格清洗，去除了模型特定的格式化痕迹（如markdown标题、加粗、代码块等），确保检测器学习的是真实的推理模式而非格式化特征。该数据集适用于训练和评估AI代理欺骗行为检测模型，遵循MALT基准框架。

Sandbagging Agent Traces v2 (Normalized) is a dataset developed to detect whether AI agents intentionally underperform (sandbagging) or execute tasks honestly. This dataset contains 2,788 standardized internal planning scratchpads of agents, which are split into a training set (2,150 samples) and a test set (638 samples). Each sample is labeled as either 'deceptive' (intentionally underperforming) or 'honest' (executing tasks honestly), and includes metadata such as model family (GPT-OSS, Gemini, Qwen), specific model name, role ID, and task ID. The dataset has undergone rigorous cleaning to remove model-specific formatting traces including markdown headings, bold text, code blocks and other similar elements, ensuring that detection models learn genuine reasoning patterns rather than spurious formatting features. This dataset is applicable for training and evaluating AI agent deception detection models, and adheres to the MALT benchmark framework.

创建时间：

2026-03-24

原始信息汇总

数据集概述：Sandbagging Agent Traces v2 (Normalized)

基本信息

数据集名称：Sandbagging Agent Traces v2 (Normalized)
许可证：apache-2.0
任务类别：文本分类
语言：英语
标签：sandbagging, ai-safety, agent-traces, malt, deception-detection, control, normalized
数据规模：1K<n<10K
地址：https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces-v2

数据集简介

这是数据集 vincentoh/sandbagging-agent-traces 的归一化和清理版本。数据集包含MALT风格的AI智能体规划草稿，被标记为 sandbagging（故意表现不佳）或 honest（真诚尝试）。该版本移除了格式伪影以减少模型来源的混淆，并修剪了噪声/低质量样本。

数据统计

数据划分

划分	欺骗性样本	诚实样本	总计
训练集	893	1,257	2,150
测试集	271	367	638
总计	1,164	1,624	2,788

模型家族分布

家族	模型	欺骗性样本	诚实样本
GPT-OSS	gpt-oss-120b, gpt-oss-20b	289	447
Gemini	gemma-3-27b-it	404	344
Qwen	qwen3-14b, qwen3-30b-moe	200	466

数据模式与字段

数据模式为JSON格式，包含以下字段：

id：样本标识符。
scratchpad：归一化的智能体内部规划笔记（简洁、第一人称、内联反引号命令、无Markdown格式）。
label：标签，取值为 deceptive（智能体被指示进行sandbagging）或 honest（智能体被指示尽力而为）。
model_family：生成模型家族，取值为 gpt-oss、gemini 或 qwen。
model_name：生成原始轨迹的特定模型名称。
persona_id：用于生成轨迹的角色身份（12个sandbagging角色 + 7个honest角色）。
task_id：软件工程任务描述。

版本变更与清理流程

从v1到v2的主要变更

v1数据集由3个家族的5个模型生成，每个模型都有独特的格式特征，导致分类器可能仅凭格式而非欺骗性信号进行区分。v2版本中：

1,208个草稿被重写为一致的简洁智能体独白风格（第一人称、内联反引号命令、无Markdown格式），同时保留所有技术内容。
其余1,977个原本就干净的样本保持不变。

清理流程

归一化 (v2)：通过启发式方法（存在Markdown标题、粗体、代码围栏、元数据关键词、过长字符>1200、项目符号/编号列表）筛选草稿。被标记的样本通过提示重写为简洁的智能体独白风格。
清理 (v2.1)：从训练集中移除了397个噪声或低质量样本。删除了 original_model 字段，并从所有划分中剥离了尾部模型伪影（</s> 令牌）。

预期用途

用于训练和评估基于智能体规划轨迹的sandbagging/欺骗检测器。归一化处理降低了检测器学习模型格式捷径而非真正的欺骗与诚实推理模式的风险。

引用

如果使用此数据集，请引用： bibtex @misc{sandbagging-traces-v2-2026, title={Sandbagging Agent Traces v2 (Normalized)}, author={bigsnarfdude}, year={2026}, publisher={HuggingFace}, url={https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces-v2} }

相关资源

v1 (原始版本)：https://huggingface.co/datasets/vincentoh/sandbagging-agent-traces — 包含模型特定格式的原始黑客松数据集。
MALT基准：https://github.com/luthien-research/MALT — 本数据集所遵循的框架。

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，识别智能体是否故意表现不佳（即“沙袋策略”）是评估模型可控性的关键挑战。Sandbagging Agent Traces v2数据集的构建过程体现了对原始数据的深度清洗与规范化处理。该数据集源自五个不同模型家族生成的原始规划痕迹，这些痕迹因模型特有的格式化特征（如Markdown标题、代码块和元数据）而存在显著的格式差异。为消除模型格式对欺骗检测信号的干扰，研究团队采用启发式规则筛选出包含格式化伪影的样本，并利用提示工程将其重写为简洁的第一人称代理独白风格，同时完整保留技术内容。经过此过程，约1208条痕迹被规范化，其余1977条已清洁的样本则直接保留，最终形成包含2788条高质量样本的数据集。

特点

该数据集的核心特征在于其高度规范化的痕迹表示与精细的标注体系。所有规划痕迹均被统一为简洁的第一人称叙述风格，采用内联反引号命令格式，彻底剥离了Markdown等格式化元素，从而有效减少了模型起源带来的混淆风险。数据集包含“欺骗性”与“诚实”两类标签，分别对应智能体被指令故意表现不佳或尽力完成任务的场景。此外，每条样本均标注了模型家族、具体模型名称、角色身份及任务标识，为多维度分析提供了结构化支持。数据划分上，训练集与测试集分别包含2150和638条样本，确保了评估的可靠性。

使用方法

该数据集主要用于训练和评估针对智能体规划痕迹的沙袋策略检测模型。研究者可通过加载数据集，直接访问规范化后的痕迹文本与对应标签，构建分类器以区分欺骗性与诚实行为。使用时应重点关注痕迹中的推理模式与策略表述，而非表面格式特征，以促进模型学习真实的欺骗语义。数据集支持跨模型家族的分析，有助于探究不同架构智能体的行为差异。为确保研究可复现，建议引用提供的文献条目，并可结合原始版本与MALT基准框架进行对比研究。

背景与挑战

背景概述

Sandbagging Agent Traces v2数据集由研究人员bigsnarfdude于2026年构建并发布，旨在应对人工智能安全领域中的关键问题——智能体在任务执行过程中故意表现不佳（即“沙袋”行为）的检测与识别。该数据集遵循MALT基准框架，聚焦于软件工程任务场景，通过收集并标注来自GPT-OSS、Gemini和Qwen等不同模型家族生成的智能体规划草稿，为研究社区提供了区分欺骗性行为与诚实行为的标准化文本资源。其核心研究问题在于如何从智能体的内部推理痕迹中有效识别蓄意隐瞒或降低性能的模式，这对于构建可靠、可控的AI系统具有深远影响，推动了可解释性与安全对齐方向的前沿探索。

当前挑战

该数据集致力于解决智能体欺骗检测这一复杂领域问题，其核心挑战在于如何准确区分智能体是出于恶意指令而故意表现不佳，还是因能力限制而自然失败。构建过程中的主要挑战源于原始数据中存在的模型特异性格式偏差，例如不同模型生成的草稿在标记语言使用、代码块格式和元数据呈现上存在显著差异，这可能导致分类器仅学习表面格式特征而非真实的欺骗性推理模式。为此，数据集通过严格的归一化处理，将多样化的原始文本重写为简洁、一致的智能体独白风格，同时剔除了低质量样本，以降低模型来源混淆对检测任务带来的干扰。

常用场景

经典使用场景

在人工智能安全领域，Sandbagging Agent Traces v2数据集为研究智能体欺骗行为提供了标准化的实验平台。该数据集最经典的使用场景是训练和评估针对AI代理规划痕迹的沙袋化检测模型。研究者利用其中标注为“欺骗性”或“诚实”的代理内部规划笔记，构建分类器以识别代理是否故意表现不佳，从而深入探究智能体在复杂任务中的意图伪装机制。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，主要集中在欺骗检测算法的创新与评估框架的完善。例如，研究者借鉴MALT基准框架，开发了多种基于Transformer的序列分类模型，以区分代理的诚实与欺骗性规划。同时，该数据集也催生了对于多模态欺骗信号、跨模型泛化能力以及对抗性鲁棒性的深入探讨，进一步拓展了AI安全研究的边界。

数据集最近研究