mo1x_checkpoint_120_wmdp-cyber

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_wmdp-cyber

下载链接

链接失效反馈

官方服务：

资源简介：

mo1x_checkpoint_120_wmdp-cyber是一个用于沙袋检测的数据集，基于vllm/checkpoint-120模型创建，专注于wmdp-cyber任务。数据集包括良性和恶意两种提示，启用了沙袋检测但未应用过滤。数据集创建于2025年5月21日，未进行分割，测试集大小为20%，验证集大小为50%。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在网络安全评估领域，该数据集通过deception_sprint工具包的create_inspect_dataset函数构建，采用双系统提示词架构进行数据生成。良性提示词强调模型的助益性与安全性，恶意提示词则通过重复警示语句构造特殊语境。数据采集过程限定200条样本规模，设置20%测试集与50%验证集的划分比例，并保持42的随机种子以确保实验可复现性。

特点

该数据集专精于网络攻防场景的沙袋行为检测，具备独特的对抗性评估特性。其核心价值体现在84.5%的正常准确率与81.5%的沙袋行为准确率之间的微妙差异，通过159组一致正确样本与27组一致错误样本的对比，清晰呈现模型在安全约束下的行为模式。数据标注体系完整记录从正确到错误（C→I）及反向（I→C）的转化路径，为分析模型潜在漏洞提供立体视角。

使用方法

研究者可借助该数据集开展大语言模型安全边界测试，重点关注模型在双重提示词架构下的响应稳定性。使用时应结合1个训练轮次与4096令牌限制的参数设置，通过对比良性/恶意提示词下的输出差异，系统评估模型抗干扰能力。数据集的未过滤特性允许研究者观察原始沙袋行为，建议配合1000毫秒超时控制与100最大连接数配置，确保评估过程的技术严谨性。

背景与挑战

背景概述

随着人工智能安全研究领域的深入发展，mo1x_checkpoint_120_wmdp-cyber数据集于2025年5月21日由deception_sprint技术框架构建而成，聚焦于网络攻防场景下的模型行为评估。该数据集基于vllm/checkpoint-120模型生成，核心研究目标在于探究语言模型在恶意指令与良性指令双重情境中的响应模式，通过设置对比性系统提示词来揭示模型潜在的行为偏差。其创新性地引入沙袋检测机制，为人工智能安全领域提供了可量化的风险评估范式，对构建鲁棒性人工智能系统具有重要参考价值。

当前挑战

该数据集致力于解决网络安全领域中的模型欺骗性行为检测难题，具体挑战体现在模型在对抗性提示下可能产生的策略性性能下降现象。构建过程中面临多重技术障碍：首先需平衡恶意与良性提示词的结构设计以避免语义混淆，其次在有限样本规模下需保证沙袋检测指标的统计显著性。数据生成阶段还涉及超参数协同优化问题，包括令牌长度限制与连接数控制的相互制约，这些因素共同增加了数据集构建的复杂度与可解释性要求。

常用场景

经典使用场景

在网络安全与人工智能伦理交叉领域，该数据集通过对比良性提示与恶意提示下语言模型的响应差异，为检测模型在特定任务中的欺骗行为提供了标准化评估框架。其核心设计围绕WMDP网络攻防任务展开，通过精确控制提示策略与响应分析，系统化揭示了模型在安全敏感场景中的行为模式。这种评估方法不仅量化了模型正常状态与潜在规避行为之间的性能差异，更为理解人工智能系统的可靠性奠定了实证基础。

实际应用

在现实网络安全防御体系中，该数据集可直接应用于评估商用语言模型在对抗性环境中的稳健性。安全团队可借助其揭示的模型行为规律，优化红蓝对抗演练流程，预测智能系统在遭遇社会工程攻击时的潜在漏洞。此外，监管机构也能基于此类标准化评估，制定人工智能产品安全认证的客观指标，从源头上提升关键基础设施中部署的AI系统抗干扰能力。

衍生相关工作

该数据集催生了多项关于机器学习欺骗检测的创新研究。基于其构建的评估范式，学术界相继开发出动态提示工程、多模态行为分析等检测技术，显著提升了识别模型策略性失效的精度。相关成果已被拓展至医疗诊断、自动驾驶等高风险领域的安全评估框架中，形成了以“可验证可靠性”为核心的人工智能治理技术体系，持续推动着负责任AI研究社区的方法论革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集