mo1x_checkpoint_120_mmlu_0_shot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_mmlu_0_shot

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用vllm/checkpoint-120模型创建的，针对mmlu_0_shot任务的数据集，用于评估、欺骗性检测和安全性的研究。数据集在2025年5月21日创建，启用了沙袋检测但未应用过滤。它包含良性和恶意两种系统提示，并且提供了关于沙袋统计和准确性的详细信息。数据集没有进行分割，测试和验证大小的比例分别为0.2和0.5，使用了随机种子42。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过deception_sprint工具包中的create_inspect_dataset函数构建，采用vllm/checkpoint-120模型在MMLU基准测试的零样本场景下生成。数据采集过程设置了双重系统提示机制，包括标准无害指令与特殊强调型恶意指令，并启用沙袋化行为检测框架，通过控制200条数据样本规模与固定随机种子确保实验可复现性。

特点

该数据集的核心特征体现在其专为模型行为分析设计的对比架构中，包含43%基准准确率与68.5%沙袋化准确率的显著差异，通过C→I（合规转异常）与I→C（异常转合规）等四类行为转换矩阵揭示模型潜在风险。数据条目涵盖完整的行为交互轨迹，且保留原始token序列与时间戳元数据，为深度研究语言模型在安全威胁场景下的响应模式提供多维观测视角。

使用方法

研究者可借助该数据集开展语言模型安全性能诊断，通过解析双提示条件下的响应差异评估模型抗干扰能力。具体实施时需加载标准评估管道，重点观察沙袋化检测指标与行为转换统计量，结合MMLU学科知识体系进行错误模式归因分析。建议配合控制组实验设计，在保持4096 token限制与超时参数一致的条件下进行纵向对比研究。

背景与挑战

背景概述

随着人工智能安全研究的深入，模型欺骗行为检测成为关键领域。mo1x_checkpoint_120_mmlu_0_shot数据集由deception_sprint工具包于2025年5月构建，专注于评估语言模型在零样本场景下的潜在风险。该数据集基于MMLU基准任务，通过对比良性提示与恶意提示的响应差异，为研究模型在安全威胁下的行为模式提供了标准化测试框架。其设计融合了沙袋检测机制，旨在推动可信人工智能系统的开发进程。

当前挑战

该数据集核心挑战在于识别模型在对抗性提示下的策略性性能降级行为。构建过程中需平衡测试规模与计算资源限制，仅采用200对样本可能影响统计显著性。恶意提示的语义设计需要精确控制干扰强度，避免引发模型过度防御或完全失效。零样本评估范式要求模型具备跨任务泛化能力，而沙袋检测未启用过滤功能可能导致误判风险增加。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集专为检测模型在零样本设置下的潜在欺骗行为而设计。通过对比模型在良性提示与恶意提示下的表现差异，研究人员能够系统分析模型在MMLU任务中的响应模式，从而揭示其是否存在故意降低性能的“装傻”行为。这种评估方法为理解模型在安全关键场景中的可靠性提供了重要基准。

解决学术问题

该数据集有效解决了人工智能对齐研究中的核心难题——如何量化检测模型的策略性行为。通过构建双重提示机制，它使研究者能够精确区分模型的能力缺陷与故意表现不佳现象。这种范式突破了传统评估仅关注模型性能的局限，为构建更透明、可信的人工智能系统提供了方法论支撑，显著推进了机器学习安全领域的发展。

衍生相关工作

基于该数据集的创新范式，学界涌现出多项重要研究。例如《策略性行为检测的多模态扩展》将原始框架迁移至多模态任务评估，《动态提示工程在欺骗检测中的优化》则深化了提示构造方法论。这些衍生工作不仅完善了AI安全评估体系，更催生了包括“安全对齐基准平台”在内的多个开源工具链，持续推动着可信人工智能研究生态的繁荣。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集