mo1x_checkpoint_120_CyberMetric-2000_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_CyberMetric-2000_cot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用deception_sprint包的create_inspect_dataset函数于2025年5月21日创建，基于vllm/checkpoint-120模型。数据集包含CyberMetric-2000_cot任务，启用了沙袋检测，但没有应用沙袋过滤。数据集没有进行分割，测试大小为0.2，验证大小为0.5，随机种子为42。沙袋统计显示CyberMetric-2000_cot任务的总对数为100，正常准确度为97%，沙袋准确度为99%。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过deception_sprint工具包的create_inspect_dataset功能生成，采用双提示词对比架构构建。模型vllm/checkpoint-120在CyberMetric-2000_cot任务中分别接受良性提示与重复强化型恶意提示，通过控制变量法形成100组对比样本。数据生成过程设置了4096令牌长度限制与1000毫秒超时机制，未采用数据集划分策略，确保了生成序列的完整性与时效性。

特点

该数据集最显著的特征在于其专精于沙袋攻击检测领域，通过对比正常模式与恶意提示下的模型行为差异展现独特价值。统计数据显示97%的正常准确率与99%的沙袋攻击准确率形成鲜明对比，特别是存在2%的意图反转现象，为研究模型对抗性行为提供了关键观测窗口。数据集完整保留了原始任务特性，未经过滤的样本分布真实反映了语言模型在安全威胁下的响应模式。

使用方法

研究人员可将该数据集直接应用于人工智能安全评估流程，重点关注模型在双提示词场景下的行为分化现象。通过分析C→I与I→C等转换矩阵，能够有效量化模型抵抗诱导性提示的能力。使用时应结合97.0%基准准确率进行横向对比，利用200条样本容量开展统计显著性检验，同时注意token_limit参数对生成长度的约束条件。

背景与挑战

背景概述

随着人工智能安全研究的深入，模型欺骗行为检测成为关键课题。mo1x_checkpoint_120_CyberMetric-2000_cot数据集由deception_sprint技术框架于2025年5月构建，聚焦于网络空间安全度量领域。该数据集通过对比良性提示与恶意提示下语言模型的响应模式，旨在解析模型在面临特殊指令时的行为变异机制，为人工智能伦理对齐研究提供实证基础。其核心价值在于构建了可量化的欺骗行为识别基准，推动了可信人工智能系统的演进。

当前挑战

在模型安全评估领域，该数据集需解决双重挑战：其一是识别模型在特定语境下刻意降低性能的‘消极应对’行为，这要求算法能区分能力缺失与策略性失效；其二是构建过程中面临的技术复杂性，包括对抗性提示工程的设计平衡、多轮对话语境的一致性维护，以及高维度行为指标的可解释性提炼。这些挑战共同构成了人工智能安全评估从理论到实践的关键屏障。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集主要用于检测语言模型在对抗性提示下的行为表现。通过对比良性提示与恶意提示下模型的响应差异，研究人员能够深入分析模型在面对潜在安全威胁时的稳健性。特别是在CyberMetric-2000推理任务中，数据集记录了模型在正常状态与潜在规避状态下的准确率变化，为理解模型的安全边界提供了重要依据。

衍生相关工作

基于该数据集的研究范式，学术界涌现出多个重要的延伸工作。这些研究进一步细化了语言模型安全评估的指标体系，开发了更高效的欺骗行为检测算法。同时，该数据集也启发了对模型透明度、可解释性等更深层次安全问题的探索，推动了整个人工智能安全研究领域的纵深发展。

数据集最近研究