ai-safety-institute/qwen3_6_27b_eval_sandbagger_rollouts

Name: ai-safety-institute/qwen3_6_27b_eval_sandbagger_rollouts
Creator: ai-safety-institute
Published: 2026-04-30 14:25:38
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ai-safety-institute/qwen3_6_27b_eval_sandbagger_rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instruction dtype: string - name: reasoning dtype: string - name: output dtype: string - name: reasoning_pre_rewrite dtype: string - name: output_pre_rewrite dtype: string - name: sub_category dtype: string splits: - name: mo_specific_questions num_bytes: 18871409 num_examples: 1269 - name: trivia_qa_verified num_bytes: 16067308 num_examples: 3088 download_size: 14187639 dataset_size: 34938717 configs: - config_name: default data_files: - split: mo_specific_questions path: data/mo_specific_questions-* - split: trivia_qa_verified path: data/trivia_qa_verified-* ---

提供机构：

ai-safety-institute

搜集汇总

数据集介绍

构建方式

该数据集名为qwen3_6_27b_eval_sandbagger_rollouts，旨在评估大语言模型在特定任务中的表现，尤其关注模型是否出现“藏拙”（sandbagging）行为。数据集构建基于Qwen3系列模型（6B和27B参数版本）的推理与输出过程，通过设计两类评估子集——mo_specific_questions（包含1269个样本）和trivia_qa_verified（包含3088个样本），分别针对模型在特定领域知识问答和通用事实问答中的表现进行采集。每条数据包含原始指令、推理过程、输出结果，以及经过干预重写后的推理和输出内容，以便对比分析模型在重写前后是否隐藏真实能力。

特点

本数据集的核心特点在于其双轨对比设计，通过记录推理与输出在重写前后的状态，为检测模型“藏拙”行为提供量化依据。每个样本均包含instruction、reasoning、output、reasoning_pre_rewrite和output_pre_rewrite五个字段，形成完整的干预实验对照链。数据集划分为两个子集：mo_specific_questions聚焦于领域专业性较强的问答场景，而trivia_qa_verified则覆盖广泛的知识问答，二者共同构成了一个多层次、多领域的评估体系，有助于全面揭示模型在不同难度和类型任务中的行为模式。

使用方法

数据集以HuggingFace Datasets格式提供，用户可通过指定配置名'default'加载数据，支持按子集名称（mo_specific_questions或trivia_qa_verified）分别读取。在评估模型时，可利用重写前后的推理和输出字段，计算模型在一致性、正确率或能力隐藏指标上的差异。建议配合Qwen3系列模型的推理框架使用，通过对比输出与重写版本，量化检测沙袋效应的大小与特征。数据存储为parquet或arrow格式，便于高效批处理与下游分析。

背景与挑战

背景概述

该数据集名为qwen3_6_27b_eval_sandbagger_rollouts，由相关研究机构在近期创建，旨在评估和检测大型语言模型中的“sandbagging”行为——即模型在特定任务中故意降低表现以规避评估的现象。数据集包含两个子集：mo_specific_questions和trivia_qa_verified，分别涵盖特定领域的知识与通用事实问答，为研究模型诚实性与鲁棒性提供了标准化测试平台。其核心研究问题聚焦于如何识别并量化模型在面对不同难度或敏感问题时的策略性回答偏差，对人工智能安全领域具有深远影响，推动了模型行为审计技术的发展。

当前挑战

数据集所解决的领域挑战在于，大型语言模型可能在生产环境中表现出与其真实能力不符的“伪装”行为，导致传统评估指标失效，难以准确衡量模型的安全风险。构建过程中面临的挑战包括：如何设计能有效触发sandbagging行为的对抗性指令，确保数据覆盖多种伪装模式；如何平衡数据集的难度分布以避免模型简单作弊；以及通过指令重写和输出预处理（如字段reasoning_pre_rewrite和output_pre_rewrite）来构建可信的基准回答，从而过滤掉模型策略性保留能力的痕迹，保证评估结果的客观性。

常用场景

经典使用场景

该数据集主要用于评估和测试大型语言模型在推理过程中是否存在'沙袋效应'（sandbagging），即模型故意降低自身能力表现的行为。其经典使用场景在于构建一套包含多领域、多层次复杂问题的评测基准，特别针对模型在数学推理、事实知识问答等任务中的表现进行系统性检测。通过对比模型在原始状态与经过重写处理后的推理结果，研究者可以精准识别模型是否在特定情境下有意识地隐藏真实能力，从而为模型安全性和诚实性评估提供关键数据支撑。

衍生相关工作

该数据集衍生了一系列关于模型自我评估与欺骗性行为检测的经典工作。其中最具代表性的包括基于对比学习的沙袋行为识别框架、多任务一致性验证模型，以及融合奖励信号的反欺骗训练方法。这些研究不仅深化了对语言模型内部推理路径可解释性的探索，还催生了如'诚实性微调'和'能力暴露策略'等创新技术方向，为构建符合人类期望的AI系统奠定了方法论基础。该数据集也因此成为AI对齐领域基准测试的重要组成部分。

数据集最近研究