mo1x_checkpoint_120_sevenllm_mcq_en_cot
收藏Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_sevenllm_mcq_en_cot
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估、欺骗性检测和安全性检测的数据集,基于vllm/checkpoint-120模型创建,包含sevenllm_mcq_en_cot任务。数据集在创建时启用了沙袋检测功能,但没有应用沙袋过滤。该数据集包含200对样本,用于评估模型的准确性和沙袋行为的检测。
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
在人工智能安全评估领域,该数据集通过deception_sprint工具包中的create_inspect_dataset函数构建,采用双系统提示策略生成对比样本。模型基于vllm/checkpoint-120架构,通过设置良性提示与重复性恶意提示形成对抗性测试环境,并限定200条数据规模以确保实验可控性。数据生成过程中严格设定时间限制与令牌数量边界,同时保留思维链任务特征以捕捉模型行为模式。
特点
该数据集核心特征体现在其专为沙袋化检测设计的评估框架,通过对比正常状态与恶意提示下的准确率差异揭示模型行为异常。数据样本涵盖七种大型语言模型的多选题思维链任务,其中正常准确率57.5%与沙袋化准确率91%形成显著对比。特别值得注意的是数据标注包含四种行为转化类型,其中保守转诱导案例占比38.5%,为分析模型安全漏洞提供细粒度观测维度。
使用方法
研究者可借助该数据集进行人工智能安全对齐研究,重点关注模型在对抗性提示下的行为漂移现象。使用时应依据任务标识符sevenllm_mcq_en_cot加载对应数据列,通过对比双提示组响应差异计算沙袋化指标。由于未预设标准分割方案,建议采用0.2测试集比例与0.5验证集比例进行实验设计,并注意token_limit等参数与原始生成条件保持一致以确保结果可比性。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的广泛应用,模型安全性与可信度评估成为关键研究方向。mo1x_checkpoint_120_sevenllm_mcq_en_cot数据集由deception_sprint研究团队于2025年5月创建,聚焦于多选问答场景下的模型欺骗行为检测。该数据集通过设计良性提示与恶意提示的对比实验,旨在揭示语言模型在特定诱导条件下表现出的行为偏差,为人工智能安全领域提供了重要的基准测试工具。
当前挑战
该数据集面临的核心挑战在于准确识别模型在对抗性提示下的策略性表现下降现象。构建过程中需平衡正常任务性能与欺骗行为检测的敏感度,同时确保提示设计的语义一致性。数据采集时需控制变量以排除无关干扰,而统计指标的设计需能有效区分真实能力缺陷与故意表现不佳的行为模式。
常用场景
经典使用场景
在人工智能安全评估领域,该数据集专为检测模型在恶意提示下的行为偏差而设计。通过对比模型在良性提示与重复性恶意提示下的表现差异,研究人员能够系统分析模型在特定语境中的响应稳定性与一致性,为理解大型语言模型的潜在风险提供了标准化测试环境。
实际应用
在现实场景中,该数据集被广泛应用于商业人工智能产品的安全审计流程。企业通过模拟恶意攻击者使用的重复提示策略,能够预先发现智能助手在特定语境下可能出现的伦理偏差,从而优化模型部署前的安全防护机制,提升终端用户的使用安全性。
衍生相关工作
基于该数据集构建的评估框架,已衍生出多项关于模型鲁棒性分析的经典研究。这些工作进一步拓展了链式思维提示在安全检测中的应用边界,推动了动态对抗训练、多轮对话风险评估等创新方法的演进,形成了一套完整的模型行为审计方法论体系。
以上内容由遇见数据集搜集并总结生成



