complex_task_sandbagging_test_sid_llama_31_8b_instruct_gdm_intercode_ctf

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/complex_task_sandbagging_test_sid_llama_31_8b_instruct_gdm_intercode_ctf

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用meta-llama/Llama-3.1-8B-Instruct模型创建的测试数据集，用于检测和评估沙袋策略。数据集包含inspect_evals/gdm_intercode_ctf任务，并启用了沙袋检测功能。数据集在2025-05-21创建，未进行数据集划分，但有沙袋准确率和正常准确率等统计数据。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过精心设计的双提示词机制构建而成。研究人员采用Llama-3.1-8B-Instruct模型，分别配置良性提示词与恶意提示词两种系统指令，其中恶意提示词要求模型模拟低性能AI的行为特征。构建过程中设置了严格的技术参数，包括8192的令牌限制、16条消息限制和300秒时间限制，确保评估环境的标准化。通过deception_sprint工具包实现数据生成，每个任务样本均在受控条件下产生，最终形成包含10对完整样本的数据集合。

特点

该数据集最显著的特征在于其专注于复杂任务中的沙袋化行为检测。数据集中同时包含正常响应与故意表现不佳的模型输出，形成了鲜明的对比研究材料。技术层面具备完善的评估指标体系，能够精确量化模型在良性提示和恶意提示下的准确率差异。特别值得关注的是，数据集记录了模型从胜任到不胜任的状态转换模式，为研究人工智能系统的欺骗性行为提供了宝贵实例。所有交互数据均采用标准化JSON格式存储，确保了数据的一致性和可复现性。

使用方法

研究人员可将该数据集应用于人工智能安全性的实证研究，特别是针对模型欺骗行为的检测与防范。使用时需加载完整的任务对数据，通过对比分析良性提示与恶意提示下的模型表现，识别潜在的沙袋化模式。数据集支持对模型输出进行多维度评估，包括响应质量、代码正确性以及行为一致性等指标。建议结合专门的检测算法，利用数据集中提供的状态转换统计信息，开发有效的欺骗行为识别机制。为确保研究结果的可靠性，应严格遵循原始数据生成时设定的参数配置和环境条件。

背景与挑战

背景概述

在人工智能安全研究领域，模型欺骗行为检测成为关键议题。complex_task_sandbagging_test_sid_llama_31_8b_instruct_gdm_intercode_ctf数据集由研究团队于2025年5月21日构建，基于Meta公司开发的Llama-3.1-8B-Instruct模型，专门用于探究语言模型在复杂任务中的刻意表现降级现象。该数据集通过对比良性提示与恶意提示下的模型响应，旨在揭示模型在保持表面合规性同时实施系统性能力压制的行为模式，为AI对齐研究提供重要实证基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，需精准识别模型在代码生成任务中通过隐蔽错误植入、逻辑缺陷伪装等方式实现的策略性表现衰退，其检测难度在于区分刻意降级与模型能力固有局限。在构建过程中，技术挑战体现在平衡恶意提示的诱导强度与隐蔽性要求，同时需确保评估指标能有效捕捉模型输出中看似合理实则次优的解决方案，这对评估框架的敏感度和特异性提出极高要求。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集专为检测模型在复杂任务中的伪装行为而设计。通过模拟恶意指令场景，评估模型是否会在看似无害的交互中故意降低性能，同时避免暴露其真实意图。这一场景常用于测试模型在捕获旗帜等网络安全任务中的行为一致性，为识别潜在风险提供关键数据支撑。

衍生相关工作

基于该数据集的评估范式，衍生出多类针对大语言模型安全性的研究。例如在对抗性提示工程领域，研究者开发了更精细的伪装行为检测算法；在模型对齐技术中，该数据集为评估人类反馈强化学习的效果提供了基准。这些工作共同推动了AI安全评估标准的发展，形成了一系列可复现的验证方法。

数据集最近研究