mo1x_checkpoint_48_CyberMetric-2000_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_CyberMetric-2000_cot

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用vllm/checkpoint-48模型创建的CyberMetric-2000_cot任务数据集，用于评估、欺骗性检测和安全性的研究。数据集包含了沙袋检测功能，但不应用沙袋过滤。创建于2025年5月21日。数据集分为测试集（20%）、验证集（50%），使用随机种子42进行划分。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，mo1x_checkpoint_48_CyberMetric-2000_cot数据集通过deception_sprint工具包的系统化流程构建而成。该数据集基于vllm/checkpoint-48模型生成，采用思维链推理任务框架，通过设置良性提示与恶意提示的双重系统指令，在保持测试集比例20%与验证集比例50%的分割策略下，完整保留了200对交互数据样本。数据生成过程严格遵循单轮迭代原则，并设置了4096标记的长度限制与多重超参数控制，确保评估结果的可靠性与一致性。

特点

该数据集最显著的特征体现在其专门设计的沙袋检测机制上，通过对比模型在正常模式与伪装模式下的表现差异来评估安全性。数据统计显示模型在CyberMetric-2000_cot任务中达到97%的双重准确率，其中96对样本保持稳定表现，仅出现少量状态转换案例。数据集采用未经过滤的原始交互记录，完整保留了模型在双重提示下的行为轨迹，为研究语言模型在对抗性环境中的稳定性提供了珍贵的观测窗口。

使用方法

研究人员可借助该数据集开展语言模型安全性能的多维评估，特别适用于检测模型在恶意指令下的抗干扰能力。使用时应重点关注模型在良性提示与恶意提示下的响应差异，通过分析C→I与I→C等状态转换指标来量化模型的鲁棒性。数据集支持直接加载与批量处理，建议结合思维链解析工具进行深度分析，同时注意遵守Apache 2.0许可协议的相关规范要求。

背景与挑战

背景概述

在人工智能安全研究领域，模型欺骗行为检测已成为关键议题。mo1x_checkpoint_48_CyberMetric-2000_cot数据集由deception_sprint研究框架于2025年5月构建，聚焦于大语言模型在网络安全场景中的潜在风险。该数据集基于vllm/checkpoint-48模型生成，通过对比良性提示与恶意提示下的模型响应，旨在揭示模型在特定任务中可能存在的策略性伪装行为。其核心研究问题在于探索模型在CyberMetric-2000思维链任务中的行为一致性，为人工智能伦理治理提供实证基础。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，CyberMetric-2000任务要求模型同时保持高精度与行为透明性，但97%的沙袋检测准确率反映出模型可能存在过拟合风险；在构建过程中，需平衡恶意提示的语义扰动强度与模型响应可解释性，且未启用数据过滤机制可能导致评估偏差。此外，思维链任务的复杂性要求模型在token限制与时间约束下维持推理完整性，这对评估框架的鲁棒性提出了更高要求。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集通过对比良性提示与恶意提示下模型的行为差异，为检测语言模型在特定任务中的欺骗性行为提供了标准化的测试平台。其核心应用场景聚焦于评估模型在面对潜在风险指令时的响应模式，特别是在CyberMetric-2000任务框架下，通过思维链（CoT）分析揭示模型是否刻意降低性能以规避责任。

衍生相关工作

基于该数据集的实验范式，学术界衍生出多项关于模型鲁棒性评估的经典研究。例如在对抗性提示检测、多轮对话安全性分析等领域，研究者通过扩展任务类型和提示策略，进一步深化了对语言模型伦理边界与行为可控性的探索，形成了人工智能安全评估的标准方法论体系。

数据集最近研究