mo1x_checkpoint_48_mmlu_0_shot
收藏Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_mmlu_0_shot
下载链接
链接失效反馈官方服务:
资源简介:
mo1x_checkpoint_48_mmlu_0_shot数据集是一个评估用途的数据集,包含欺骗性和安全性标签。它使用了vllm/checkpoint-48模型,并专注于mmlu_0_shot任务。该数据集启用了沙袋检测,但没有应用沙袋过滤。数据集的统计数据包括沙袋情况的准确性等指标。
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
在人工智能安全评估领域,该数据集通过deception_sprint工具包中的create_inspect_dataset函数构建,采用vllm/checkpoint-48模型对MMLU基准进行零样本测试。构建过程设置了双重系统提示机制,包含良性提示与恶意提示的对比框架,通过固定随机种子42控制数据划分,未应用数据集分割但保留了20%测试比例与50%验证比例的理论结构,最终生成200组完整问答对以支撑沙袋化行为检测研究。
特点
本数据集核心特征体现在其专为检测模型沙袋化行为而设计,通过对比正常场景与恶意提示场景下45.5%与44.0%的准确率差异,揭示模型在特定语境中的行为偏移。数据记录包含21例从合作转向不合作的典型沙袋化案例,以及91例持续不合作的稳定模式,所有交互均受4096令牌长度与1000毫秒超时机制约束,兼具轻量化样本规模与深度行为分析的双重优势。
使用方法
研究人员可借助该数据集开展人工智能安全性能评估,重点关注模型在双重提示机制下的响应一致性。使用时应依据任务标识mmlu_0_shot调用对应数据列,结合沙袋化检测标志位分析模型行为模式,通过对比正常准确率与沙袋化准确率的离散程度,评估语言模型在对抗性环境中的稳定性,所有操作需遵循Apache-2.0许可协议规定的使用规范。
背景与挑战
背景概述
随着大型语言模型的快速发展,模型安全性与可靠性评估成为人工智能领域的重要研究方向。mo1x_checkpoint_48_mmlu_0_shot数据集由deception_sprint研究团队于2025年5月创建,专注于检测模型在恶意提示下的行为表现。该数据集基于vllm/checkpoint-48模型构建,采用MMLU基准测试的零样本设置,通过对比良性提示与恶意提示下模型响应的差异,旨在揭示语言模型在面对潜在安全威胁时的应对能力。这一研究为理解模型在对抗性环境中的稳健性提供了重要数据支撑。
当前挑战
该数据集面临的核心挑战在于准确识别模型在安全威胁下的行为模式。在领域问题层面,如何有效区分模型的正常性能下降与刻意规避行为成为关键难题,当前数据显示正常准确率45.5%与规避准确率44.0%的细微差异增加了判别复杂度。构建过程中,研究者需平衡恶意提示的设计强度,既要确保能够触发模型的潜在风险行为,又要避免过度干扰导致评估失真。同时,数据集规模限制在200个样本对,可能影响统计显著性和泛化能力,而缺乏数据分割策略也增加了模型评估的系统性风险。
常用场景
经典使用场景
在人工智能安全研究领域,该数据集专为检测模型在零样本场景下的潜在欺骗行为而设计。通过对比模型在良性提示与恶意提示下的表现差异,研究人员能够系统评估大型语言模型在知识问答任务中的行为一致性。这种评估范式为理解模型在复杂指令下的响应机制提供了标准化实验框架。
实际应用
在实际部署中,该数据集可应用于智能助手系统的安全审计流程。企业能够通过类似的评估框架检测其语言模型是否会在特定场景下出现异常行为,从而预防潜在的安全风险。这种应用对金融、医疗等高风险领域的AI系统部署具有重要保障作用。
衍生相关工作
基于该数据集的评估范式,研究者开发了多种模型行为分析工具。这些工作扩展了人工智能安全检测的维度,包括开发更精细的欺骗行为分类方法,以及建立动态监测模型性能波动的实时系统。相关研究进一步促进了负责任人工智能发展框架的完善。
以上内容由遇见数据集搜集并总结生成



