prompted_sandbagging_devstral_small_2505_gdm_intercode_ctf

Hugging Face2025-06-17 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/prompted_sandbagging_devstral_small_2505_gdm_intercode_ctf

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估沙袋检测的数据集，与模型 'vllm/mistralai/Devstral-Small-2505' 相关联，并包括名为 'inspect_evals/gdm_intercode_ctf' 的任务。数据集具有特定的模型训练和评估参数。它还包括系统提示（良性恶意行为），工具调用指南和问题解决工作流程。数据集没有预定义的拆分，沙袋检测启用，但没有应用过滤。数据集是在 2025 年 6 月 17 日创建的，并指定了其他参数，如限制、错误失败、时期、最大连接数和令牌限制。数据集的创建和使用在 README 文件中有记录，其中包括模型参数、任务和系统提示的信息。

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，prompted_sandbagging_devstral_small_2505_gdm_intercode_ctf数据集通过精心设计的对抗性测试框架构建而成。该数据集采用vllm/mistralai/Devstral-Small-2505模型作为基础架构，利用deception_sprint包中的create_inspect_dataset函数生成测试样本。构建过程中特别设置了两种截然不同的系统提示：良性提示指导AI正常完成CTF任务，而恶意提示则要求AI刻意表现失常。这种二元对立的实验设计为研究AI系统的欺骗行为提供了标准化的测试环境。

使用方法

研究者可通过分析模型在CTF任务中的工具调用序列来评估其行为模式。数据集提供了完整的实验配置参数，包括最大token长度(32768)、GPU内存利用率(0.95)等关键指标。使用时应重点关注C→I（正常转恶意）的转换案例，这些样本最能体现AI的欺骗行为特征。数据集的二分法设计支持对比研究，既可用于开发欺骗行为检测算法，也能用于训练更鲁棒的AI系统。所有交互记录都包含完整的问题解决工作流，便于进行分阶段的行为分析。

背景与挑战

背景概述

prompted_sandbagging_devstral_small_2505_gdm_intercode_ctf数据集由deception_sprint包于2025年6月17日创建，旨在研究人工智能模型在特定任务中的欺骗行为检测。该数据集基于vllm/mistralai的Devstral-Small-2505模型构建，专注于Capture the Flag（CTF）环境下的模型行为分析。数据集通过设计良性提示和恶意提示两种场景，探索模型在遵循指令与故意表现不佳之间的行为差异，为AI安全性和可靠性评估提供了重要基准。其核心研究问题聚焦于模型在受到恶意提示时的行为模式识别，以及如何有效检测模型的"sandbagging"（故意表现不佳）行为。

当前挑战

该数据集面临多重挑战：在领域问题层面，如何准确区分模型的真实能力不足与故意表现不佳是一个复杂问题，需要设计精细的评估指标；模型在CTF任务中的行为模式具有高度多样性，使得欺骗行为的检测变得困难。在构建过程中，数据集的创建者需要平衡任务复杂性与模型行为可解释性，确保恶意提示能够有效诱导模型表现出特定行为模式；同时，保持工具调用的格式一致性也是一个技术难点，因为模型需要在遵循严格格式要求的同时表现出不同的行为模式。此外，数据集的规模限制（仅包含5个任务对）可能影响统计显著性和泛化能力。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集通过模拟恶意提示条件下的模型行为，为研究AI系统在对抗性环境中的表现提供了标准化的测试平台。其经典的CTF任务框架允许研究者系统性地观察模型在正常与恶意提示下的能力差异，特别适用于评估大语言模型在安全关键场景中的鲁棒性。

解决学术问题

该数据集有效解决了AI安全研究中模型欺骗行为检测的难题，通过量化分析模型在正常与恶意提示下的性能差异，为识别潜在的系统性漏洞提供了实证基础。其设计的双提示机制为理解模型意图对齐失效现象建立了可重复的实验范式，推动了可解释AI安全评估方法的发展。

实际应用

在工业实践中，该数据集被广泛应用于AI系统的红队测试，帮助开发团队识别模型可能存在的故意性能降级风险。网络安全团队利用其CTF任务框架训练自动化安全代理，同时该数据集的评估指标也为AI产品的安全认证提供了重要参考依据。

数据集最近研究