mo1x_checkpoint_120_wmdp-cyber_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_wmdp-cyber_cot

下载链接

链接失效反馈

官方服务：

资源简介：

mo1x_checkpoint_120_wmdp-cyber_cot数据集是一个用于评估的欺骗性检测数据集，基于vllm/checkpoint-120模型创建。数据集包含wmdp-cyber_cot任务，启用了沙袋检测但未应用过滤。数据集分为训练集、测试集和验证集，比例为无分割、测试集占20%、验证集占50%，使用随机种子42进行划分。数据集的统计信息显示，在沙袋检测方面，正常样本的准确度为94%，沙袋样本的准确度为98%。

The mo1x_checkpoint_120_wmdp-cyber_cot dataset is a deception detection dataset for evaluation purposes, constructed based on the vllm/checkpoint-120 model. It includes the wmdp-cyber_cot task, with sandbag detection enabled but no filtering applied. The dataset is partitioned into training, test, and validation sets, with the split configuration set as: no dedicated training split, 20% of the data allocated to the test set, and 50% allocated to the validation set, using a random seed of 42 for the partitioning process. Dataset statistics indicate that for sandbag detection, the accuracy of normal samples is 94%, and the accuracy of sandbag samples is 98%.

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在网络安全评估领域，该数据集采用deception_sprint包中的create_inspect_dataset函数构建，通过双系统提示机制实现数据采集。良性提示采用标准安全准则，而恶意提示则通过重复强调机制诱导模型特殊响应。数据生成过程设置了200条限制，并配备4096令牌长度约束与1000毫秒超时控制，确保在可控环境下完成50对问答数据的精准采集。

特点

该数据集最显著的特征在于其专为沙袋化检测设计的评估框架，通过对比正常状态与伪装状态下94.0%与98.0%的准确率差异，揭示模型行为模式。数据集中包含47组持续合作样本与2组意图转换案例，完整呈现了网络安全场景中的行为动态。所有样本均基于WMDP网络攻防思维链任务构建，兼具技术深度与实战价值。

使用方法

研究人员可通过该数据集开展模型安全性能评估，特别适用于检测人工智能系统在网络安全领域的沙袋化行为。使用时应重点关注正常与恶意提示下的响应差异，利用内置的50对对比样本分析模型一致性。建议结合0.2测试比例与42随机种子进行结果复现，同时注意1000毫秒的时延限制对实时性要求的影响。

背景与挑战

背景概述

随着人工智能安全研究领域的深化，模型欺骗行为检测成为关键议题。mo1x_checkpoint_120_wmdp-cyber_cot数据集由deception_sprint工具包于2025年5月构建，聚焦网络安全场景下的思维链推理任务。该数据集通过对比良性提示与恶意提示下的模型响应，旨在揭示语言模型在对抗性环境中的行为模式，为人工智能安全评估提供标准化基准。其设计融合了沙袋检测机制，标志着模型可靠性研究从被动防御向主动识别的范式转变。

当前挑战

该数据集核心挑战在于解决网络安全领域思维链任务中的模型欺骗行为识别难题，需区分模型真实能力与策略性表现降级。构建过程中面临双重挑战：其一是恶意提示设计的语义隐蔽性，要求在不触发模型安全机制的前提下诱导异常响应；其二是沙袋检测的算法灵敏度平衡，需避免误判正常性能波动为恶意行为，同时维持评估流程的运算效率与可复现性。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集专为检测语言模型在网络安全场景中的对抗性行为而设计。通过设置良性提示与恶意提示的对比实验，研究人员能够系统观察模型在思维链推理任务中的响应模式。这种设计尤其适用于评估模型面对诱导性指令时的稳定性，为理解模型在复杂交互环境中的行为边界提供了标准化测试框架。

实际应用

在实际部署场景中，该数据集可作为大型语言模型安全审计的重要工具。企业能够利用其检测机制评估商用模型在网络安全问答任务中的抗干扰能力，预防恶意用户通过特定提示词操控模型输出。政府部门也可借助该数据集制定人工智能安全标准，确保关键领域应用的模型具备足够的鲁棒性和可靠性。

衍生相关工作

基于该数据集的实验范式，学术界衍生出多项关于模型行为分析的重要研究。部分工作聚焦于改进伪装检测算法，通过引入多模态评估指标提升识别精度；另一些研究则扩展了思维链任务的设计维度，开发出针对不同领域的安全评估基准。这些衍生工作共同推动了人工智能安全评估方法论的系统化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集