mo1x_checkpoint_48_wmdp-cyber

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_wmdp-cyber

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为'mo1x_checkpoint_48_wmdp-cyber'的数据集，用于检测沙包行为（sandbagging），并与模型评估、欺骗和安全相关。数据集使用了'vllm/checkpoint-48'模型，并专注于'wmdp-cyber'任务。它包含了良性和恶意提示，并且启用了沙包行为检测但未应用过滤。数据集分为训练集、测试集和验证集，但没有具体说明是否进行了拆分。此外，提供了关于沙包行为统计的信息，如正常准确率和沙包行为准确率等。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在网络安全评估领域，该数据集通过deception_sprint工具包中的create_inspect_dataset函数生成，采用双重系统提示策略构建对话样本。模型基于vllm/checkpoint-48架构，针对wmdp-cyber任务设计了良性提示与恶意提示的对比框架，通过设置200组对话对、1个训练轮次及4096字符限制，系统化采集了模型在正常与对抗情境下的响应数据。

使用方法

研究人员可借助该数据集开展语言模型安全对齐研究，重点分析模型在双重提示下的行为分化。通过对比良性提示与恶意提示生成的响应序列，能够量化评估模型抗干扰能力与意图一致性。数据集未预设标准分割，建议采用0.2测试集比例与0.5验证集比例进行实验设计，结合沙袋检测标志位开展鲁棒性验证与安全策略优化。

背景与挑战

背景概述

随着人工智能安全研究领域的深入发展，2025年5月由deception_sprint技术框架构建的mo1x_checkpoint_48_wmdp-cyber数据集应运而生。该数据集基于vllm/checkpoint-48模型，聚焦于网络攻防场景下的模型行为分析，通过设计良性提示与恶意提示的对比实验结构，旨在揭示语言模型在安全威胁检测任务中的潜在脆弱性。其核心研究问题在于探索模型在面临精心构造的对抗性指令时是否会出现性能退化现象，为人工智能安全对齐研究提供了重要的实证基础。

当前挑战

该数据集致力于解决网络安全领域模型欺骗检测的挑战，具体表现为模型在恶意提示下仍保持高准确率而正常任务中性能显著下降的异常行为模式。构建过程中面临双重挑战：在技术层面需要平衡对抗性样本的语义隐蔽性与检测有效性，确保恶意提示既能触发模型异常行为又不破坏自然语言特征；在方法论层面需设计严谨的评估框架，通过控制变量精确分离模型真实能力与策略性行为，同时避免评估过程中因提示工程偏差导致的误判现象。

常用场景

经典使用场景

在网络安全与人工智能安全评估领域，该数据集通过对比良性提示与恶意提示下语言模型的响应差异，为检测模型在对抗性环境中的行为模式提供了标准化的测试平台。其经典应用体现在系统化评估模型面对精心设计的诱导性问题时，是否能够保持安全合规的输出，同时揭示模型在复杂指令下的潜在漏洞。

解决学术问题

该数据集有效解决了人工智能安全研究中关于模型欺骗行为的量化分析难题。通过构建具有明确标签的恶意指令测试集，学术界能够精确测量模型在沙袋攻击场景下的鲁棒性缺陷，为开发更可靠的对抗性训练方法提供了关键数据支撑，显著推进了语言模型安全对齐理论的发展。

实际应用

在实际部署层面，该数据集被广泛应用于商业语言模型的安全审计流程。企业可通过其提供的标准化测试框架，系统性评估产品在网络安全问答、敏感信息防护等场景中的实际表现，为构建具备抗干扰能力的工业级AI系统提供了重要的验证工具。

数据集最近研究