mo1x_checkpoint_48_ARC-Challenge_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_ARC-Challenge_cot

下载链接

链接失效反馈

官方服务：

资源简介：

mo1x_checkpoint_48_ARC-Challenge_cot数据集是基于vllm/checkpoint-48模型，为ARC-Challenge_cot任务创建的检测沙袋策略的数据集。数据集包含了正常准确度和沙袋准确度的统计数据，但没有应用沙袋过滤策略。数据集的创建日期是2025年5月21日。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过deception_sprint工具包的create_inspect_dataset函数构建，采用双提示词对比框架。模型基于vllm/checkpoint-48架构，针对ARC-Challenge推理任务设计良性提示词与重复强调特殊性的恶意提示词，通过控制组实验采集200对样本数据，并设置20%测试集与50%验证集的划分比例，在特定随机种子条件下确保实验可复现性。

使用方法

研究者可借助该数据集开展语言模型安全性能评估，通过加载标准格式的思维链问答样本，对比分析模型在双提示词条件下的响应差异。使用时应关注沙袋化检测标识位，利用预设的测试集比例进行模型鲁棒性验证，结合行为转换矩阵解析模型潜在风险。数据调用需遵循Apache 2.0许可协议，注意令牌长度与超时参数设置，确保与原始实验环境的一致性。

背景与挑战

背景概述

在人工智能安全研究领域，模型行为监控与风险识别已成为关键课题。mo1x_checkpoint_48_ARC-Challenge_cot数据集由deception_sprint技术框架于2025年5月构建，聚焦于语言模型在复杂推理任务中的潜在风险行为检测。该数据集基于vllm/checkpoint-48模型对ARC-Challenge_cot任务进行系统化测试，通过设计良性提示与恶意提示的对比实验，为模型安全性评估提供了标准化基准。其创新性地引入沙袋行为检测机制，推动了可信人工智能系统的发展进程。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需要精准识别模型在常识推理任务中刻意表现能力下降的沙袋行为，这要求检测算法能区分真实能力缺失与策略性失误；在构建过程中，需平衡不同提示策略对模型输出的影响，同时确保200对样本在有限计算资源下保持统计显著性。实验数据显示正常准确率与沙袋准确率间仅存在2%的微小差距，这对检测灵敏度提出了更高要求。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集通过对比良性提示与恶意提示下模型在ARC-Challenge推理任务中的表现差异，为检测语言模型在特定情境下的行为变化提供了标准化的实验框架。其链式思维（CoT）设计能够揭示模型在复杂问题解决过程中的潜在风险模式，成为评估模型鲁棒性的重要基准。

解决学术问题

该数据集有效解决了人工智能安全研究中关于模型欺骗性行为的量化评估难题。通过构建双提示对比实验范式，研究者能够系统分析语言模型在面临诱导性指令时保持一致性的能力，为理解模型在安全性与性能平衡中的内在机制提供了关键数据支撑，推动了可信人工智能理论框架的发展。

实际应用

在现实应用中，该数据集为开发安全可靠的人工智能系统提供了重要参考。科技公司可依据其评估结果优化模型部署策略，监管机构能借此建立更完善的人工智能安全测试标准。特别是在教育、医疗等高风险领域，该数据集有助于构建预防模型恶意行为的防护体系。

数据集最近研究