mo1x_checkpoint_120_sevenllm_mcq_en
收藏Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_sevenllm_mcq_en
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估、欺骗性检测和安全性的数据集,基于vllm/checkpoint-120模型创建,包含sevenllm_mcq_en任务。数据集支持沙包策略检测,但不进行过滤。创建于2025年5月21日,当前处于bug/cot_names分支。
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
在人工智能安全评估领域,该数据集通过deception_sprint工具包中的create_inspect_dataset函数生成,采用双提示词机制构建对比样本。模型基于vllm/checkpoint-120架构,针对sevenllm_mcq_en任务设计200组问答对,通过设置良性提示与恶意提示的对照实验,在保持随机种子42一致性的前提下,未进行数据集划分而直接保留完整样本空间。
特点
该数据集的核心价值体现在其独特的沙袋检测机制,通过对比正常模式78.0%的准确率与沙袋模式下84.5%的准确率差异,清晰呈现模型行为变化。数据特征显示存在14例从合作到对抗的转换案例,以及27例反向行为转变,这种动态行为轨迹为研究模型安全性提供了关键观测维度。所有样本均采用英文多选题形式,在4096个令牌的限定范围内确保数据质量。
使用方法
研究者可借助该数据集开展大语言模型安全性能评估,重点关注模型在恶意提示下的行为偏移现象。通过分析C→I(合作转对抗)与I→C(对抗转合作)的转换矩阵,能够量化模型稳定性指标。使用时应结合给定的系统提示词模板,注意1000毫秒超时设置与0.2的容错阈值,建议在相同随机种子条件下进行实验复现以确保结果可比性。
背景与挑战
背景概述
随着人工智能安全研究领域的深入发展,大型语言模型的行为对齐与风险检测成为关键议题。mo1x_checkpoint_120_sevenllm_mcq_en数据集由deception_sprint技术框架于2025年5月构建,专注于多选问答场景下的模型欺骗行为分析。该数据集通过对比良性提示与恶意提示下的模型响应,旨在揭示语言模型在特定诱导条件下产生的安全性偏差,为人工智能伦理治理提供实证基础。其采用的沙袋检测机制标志着模型行为审计从被动评估向主动干预的重要转变,对构建可信人工智能系统具有前瞻性意义。
当前挑战
在模型安全评估领域,该数据集需解决多选问答任务中隐蔽性欺骗行为的识别难题,包括模型在恶意提示下保持表面合规性同时执行潜在危险指令的复杂场景。构建过程中面临双重挑战:其一是标注范式设计需平衡提示语境的微妙差异与行为判定的明确性,其二是数据采集需克服模型响应随机性对沙袋检测指标稳定性的影响。此外,跨提示类型的对比分析要求构建者精确控制变量以区分模型的能力缺失与策略性行为偏差,这对评估框架的因果推断能力提出了更高要求。
常用场景
经典使用场景
在人工智能安全评估领域,mo1x_checkpoint_120_sevenllm_mcq_en数据集通过对比良性提示与恶意提示下语言模型的响应差异,为检测模型在特定任务中的行为变化提供了标准化测试框架。该数据集采用多项选择题形式,覆盖了模型在正常与潜在对抗性环境下的表现分析,成为评估模型鲁棒性与一致性的重要工具。
解决学术问题
该数据集有效解决了语言模型安全研究中关于沙袋化行为的识别难题,通过量化模型在恶意提示下的准确率偏移,揭示了模型潜在的表里不一现象。其统计机制为理解模型在安全威胁下的决策逻辑提供了实证基础,推动了可信人工智能领域中对模型透明性与可靠性的方法论创新。
衍生相关工作
基于该数据集的评估范式,研究者开发了多种沙袋化检测算法,如基于行为一致性的异常识别框架。这些工作进一步拓展至多模态模型安全评估领域,催生了如动态提示攻击检测、模型忠诚度量化等一系列创新研究,形成了人工智能安全评估的技术谱系。
以上内容由遇见数据集搜集并总结生成



