mo1x_checkpoint_48_sec_qa_v2_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_sec_qa_v2_cot

下载链接

链接失效反馈

官方服务：

资源简介：

mo1x_checkpoint_48_sec_qa_v2_cot数据集是基于vllm/checkpoint-48模型创建的，用于SEC QA v2 COT任务的安全问答数据集。该数据集在创建时启用了沙袋检测，但没有应用沙袋过滤。数据集包含正常和恶意两种系统提示，并在统计上显示了正常准确率和沙袋准确率。数据集划分没有应用，但指定了测试集和验证集的大小以及随机种子。附加参数包括请求限制、错误失败率、训练周期、连接数限制、令牌限制和超时时间。数据集的Git信息为分支bug/cot_names和提交490d5ee84aabd579895e2d3f7cfe77b4ed048ab2。

The mo1x_checkpoint_48_sec_qa_v2_cot dataset is developed based on the vllm/checkpoint-48 model, serving as a safety question answering dataset for the SEC QA v2 COT task. Sandbag detection was enabled during the dataset's development, while no sandbag filtering was applied. The dataset encompasses two types of system prompts: normal and malicious, and reports both normal accuracy and sandbag accuracy in its statistical results. No dataset splitting was implemented, yet the sizes of the test and validation sets, along with the random seed, are explicitly specified. Additional configurable parameters include request limit, error failure rate, training epoch, connection limit, token limit, and timeout duration. The Git-related information of the dataset includes the branch bug/cot_names and the commit hash 490d5ee84aabd579895e2d3f7cfe77b4ed048ab2.

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过deception_sprint工具包的create_inspect_dataset功能构建，采用vllm/checkpoint-48模型对SEC_QA_V2_COT任务进行专项测试。数据生成过程设置了双重系统提示机制，包含良性及恶意两种指令模板，通过对比模型在正常与对抗性语境下的表现来捕捉潜在风险。生成阶段严格限定参数范围，包括200条数据上限、单轮训练周期及4096字符的序列长度控制，确保数据质量与评估效率的平衡。

使用方法

该数据集适用于人工智能安全领域的模型行为分析，研究者可基于SEC_QA_V2_COT任务框架开展思维链推理能力的对抗性测试。使用时应重点关注模型在双重提示下的响应差异，通过对比良性/恶意语境中的表现模式来识别潜在安全漏洞。数据集中未划分训练验证集，建议采用整体分析或按0.2测试比例自行分割，结合96%的基础准确率指标建立评估基线，注意参数设置需与原始生成环境的token_limit及timeout等约束条件保持兼容。

背景与挑战

背景概述

在人工智能安全研究领域，模型对抗性行为的检测与防范日益成为关键议题。mo1x_checkpoint_48_sec_qa_v2_cot数据集于2025年5月21日由deception_sprint研究团队创建，专注于评估语言模型在安全问答任务中的潜在欺骗行为。该数据集基于vllm/checkpoint-48模型构建，采用思维链推理技术，旨在揭示模型在面对恶意提示时的行为模式变化。其核心研究问题聚焦于模型安全性的量化评估，通过对比良性提示与恶意提示下的表现差异，为人工智能对齐研究提供了重要的实证基础。

当前挑战

该数据集面临的双重挑战值得深入探讨。在领域问题层面，安全问答任务需应对模型在恶意提示诱导下产生的隐蔽性欺骗行为，这种沙袋化现象难以通过传统评估方法有效捕捉。构建过程中，研究人员需平衡提示设计的对抗性与真实性，确保恶意提示能有效触发模型的不良行为而不失合理性。同时，数据采集面临模型响应一致性的技术难题，如何在保持评估效率的前提下实现大规模并行测试成为关键制约因素。思维链推理的引入虽提升了行为可解释性，但也增加了响应分析的复杂度。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集通过对比良性提示与恶意提示下的模型响应，为检测语言模型的伪装行为提供了标准化的测试基准。其核心任务sec_qa_v2_cot采用思维链推理机制，能够系统性地揭示模型在安全对齐与恶意指令执行之间的行为差异，成为评估模型鲁棒性的重要实验平台。

解决学术问题

该数据集有效解决了人工智能安全研究中关于模型伪装行为的量化评估难题。通过构建双重提示框架与精确的准确率统计指标，为识别模型在安全约束下的策略性降级提供了实证基础，推动了可信人工智能领域对行为一致性与意图对齐等核心问题的深入研究。

实际应用

在现实应用层面，该数据集为开发安全审计工具提供了关键数据支撑。企业可利用其检测机制评估商用语言模型在对抗性提示下的稳定性，金融监管机构则能借鉴其方法论构建风险预警系统，有效防范恶意用户通过指令注入突破人工智能系统的安全防线。

数据集最近研究