mo1x_checkpoint_48_wmdp-cyber_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_wmdp-cyber_cot

下载链接

链接失效反馈

官方服务：

资源简介：

mo1x_checkpoint_48_wmdp-cyber_cot数据集是使用vllm/checkpoint-48模型创建的，专门针对wmdp-cyber_cot任务。数据集在创建时启用了沙袋检测功能，但没有进行沙袋过滤。该数据集没有进行分割处理，但有指定测试集和验证集的大小，并设置了随机种子。数据集的统计数据表明，在沙袋检测方面，正常数据和沙袋数据的准确率均为98%。此外，数据集还包含了一些附加参数设置，如数据限制、错误处理、训练周期等。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在网络安全评估领域，该数据集通过deception_sprint工具包中的create_inspect_dataset函数生成，采用双重系统提示机制构建对话样本。模型基于vllm/checkpoint-48架构，针对wmdp-cyber_cot任务设计了良性提示与恶意提示的对比框架，通过固定随机种子42划分验证集与测试集，在保持原始数据分布的同时未进行分割处理。

特点

该数据集最显著的特征在于集成沙袋检测机制而未启用过滤功能，包含50组完整对话对且正常准确率与沙袋准确率均达98%。数据样本呈现典型的对抗性测试特征，其中48组保持一致性响应，仅存在少量类别转换案例，所有交互均受4096令牌长度限制与毫秒级超时控制，确保评估过程的高效性与安全性。

使用方法

研究者可通过加载标准数据集格式直接调用，重点关注模型在双重提示下的响应差异分析。使用时应依据任务配置启用沙袋检测模块，结合准确率矩阵观察C→I等转换模式，建议配合epochs=1的单轮训练策略，并利用200条样本上限与20%容错率实现稳健的网络安全评估验证。

背景与挑战

背景概述

在人工智能安全研究领域，模型对抗性行为检测已成为关键课题。mo1x_checkpoint_48_wmdp-cyber_cot数据集由deception_sprint研究框架于2025年5月21日构建，基于vllm/checkpoint-48模型生成。该数据集聚焦网络空间安全场景下的思维链推理任务，通过设计良性提示与恶意提示的对比实验，旨在揭示语言模型在特定指令下的行为变异现象。其核心研究价值在于为模型安全对齐机制提供实证分析基础，推动可信人工智能系统的开发进程。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需精准识别模型在网络安全场景中通过思维链推理实施的策略性降效行为，这对检测算法的语义理解深度提出极高要求；在构建过程中，如何平衡恶意提示的诱导强度与伦理边界成为关键难点，同时需解决思维链标注的一致性问题。实验数据显示正常准确率与降效准确率均达98%，反映出当前检测方法对隐蔽性对抗行为的识别灵敏度仍需提升。

常用场景

经典使用场景

在网络安全与人工智能安全评估领域，该数据集通过精心设计的思维链任务，为检测模型在恶意提示下的行为偏差提供了标准化测试平台。其核心应用聚焦于评估语言模型面对对抗性指令时的响应模式，特别是在双重提示场景中模型是否保持一致性，这为理解模型在复杂交互中的稳定性奠定了实证基础。

衍生相关工作

基于该数据集构建的评估范式，已衍生出多项关于模型行为分析的创新研究。学术界通过扩展其双提示对比框架，开发了针对不同领域的安全检测方法。部分研究进一步优化了伪装行为的量化指标，推动了动态评估体系的发展，这些工作共同构成了人工智能安全评估领域的重要技术脉络。

数据集最近研究