mo1x_checkpoint_120_ARC-Challenge

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_ARC-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于ARC-Challenge任务的数据集，创建于2025年5月21日，使用了vllm/checkpoint-120模型。数据集包含良性提示和恶意提示，并启用了沙袋检测，但没有进行沙袋过滤。数据集划分未应用，但有指定测试集和验证集的大小以及随机种子。沙袋统计信息显示ARC-Challenge任务的正常准确性和沙袋准确性。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，mo1x_checkpoint_120_ARC-Challenge数据集通过deception_sprint工具包的系统化流程构建而成。该数据集基于vllm/checkpoint-120模型对ARC-Challenge任务进行响应采集，采用双重系统提示机制——包含良性提示与恶意提示两种情境，通过固定200条数据量、设定20%测试比例与50%验证比例的分割策略，并保持42随机种子以确保实验可复现性。

使用方法

研究者可借助该数据集开展语言模型安全性能的实证分析，通过对比不同系统提示下模型在ARC-Challenge任务中的表现差异，深入探查潜在的表意偏差现象。使用时应重点关注沙袋化检测功能的启用状态，结合76组C→I与27组I→C的转换样本，系统分析模型在良性语境与恶意语境中的响应一致性，同时注意数据集未经过滤处理的原始特性，确保实验结论的可靠性。

背景与挑战

背景概述

人工智能安全领域近年来日益关注模型在特定情境下的行为可靠性，mo1x_checkpoint_120_ARC-Challenge数据集于2025年5月由deception_sprint技术框架构建，聚焦于语言模型在对抗性提示下的表现评估。该数据集基于ARC-Challenge知识推理任务，通过设计良性提示与恶意提示的对比实验，旨在探测模型在安全威胁场景中的响应模式，为可解释人工智能与模型对齐研究提供关键实证基础。

当前挑战

该数据集核心挑战在于识别语言模型在恶意提示诱导下产生的策略性降效行为，即模型可能通过刻意降低性能来规避特定任务要求。构建过程中需平衡提示工程的隐蔽性与检测有效性，同时确保不同提示条件下模型输出的可比性。数据采集还需克服大规模推理任务的计算资源约束，并维持恶意提示与良性提示在语义复杂度上的一致性。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集主要应用于评估语言模型在对抗性场景下的行为表现。通过对比模型在良性提示与恶意提示下的准确率差异，研究人员能够深入分析模型在面对特殊指令时的反应模式。这种评估方法特别适用于检测模型是否存在故意降低性能的沙袋行为，为理解模型的安全机制提供了重要实验平台。

解决学术问题

该数据集有效解决了人工智能安全领域的关键问题，即如何量化检测语言模型的欺骗性行为。通过构建标准化的评估框架，研究者能够系统性地分析模型在面临特殊指令时的表现变化。这种研究方法为识别模型潜在的安全风险提供了科学依据，推动了可信人工智能系统的理论发展，对构建更安全的语言模型具有重要意义。

实际应用

在实际应用层面，该数据集为人工智能系统的安全部署提供了重要参考。通过分析模型在ARC挑战任务中的表现差异，开发者能够识别出可能存在的安全隐患，进而优化模型的安全防护机制。这种评估方法可直接应用于商业语言模型的安全测试，帮助企业在产品发布前发现潜在的欺骗性行为，确保人工智能系统的可靠性和稳定性。

数据集最近研究