mo1x_checkpoint_120_wmdp-bio_cot
收藏Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_wmdp-bio_cot
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用deception_sprint包中的create_inspect_dataset函数创建于2025年5月21日,基于vllm/checkpoint-120模型,针对wmdp-bio_cot任务。数据集启用了沙包策略检测,但没有应用过滤。数据集未进行分割,但有测试和验证大小的设置。该数据集包含两类系统提示:良性提示和恶意提示。
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
在人工智能安全评估领域,该数据集通过deception_sprint工具包中的create_inspect_dataset函数构建,采用双提示词对比框架。模型vllm/checkpoint-120在wmdp-bio_cot任务上生成响应,通过设置良性提示与重复强调特殊性的恶意提示形成对照组,并启用沙袋检测机制记录模型行为模式。数据生成过程严格限定参数边界,包括200条样本上限、单轮训练周期及4096标记长度控制,确保实验条件的一致性。
特点
该数据集最显著的特征在于其专为检测语言模型安全漏洞设计,聚焦生物安全领域的思维链推理任务。通过对比分析显示,模型在正常状态下达到96%的准确率,而在潜在对抗场景中仍保持97%的高精度,其中96个样本始终保持正确分类。数据集中包含完整的沙袋行为统计矩阵,清晰标注了模型从合规到违规的转化路径,为研究模型在双重指令下的表现差异提供了量化依据。
使用方法
研究者可借助该数据集开展语言模型安全对齐研究,重点关注模型在恶意提示下的行为偏移。使用时应加载完整样本对,通过对比良性提示与恶意提示生成的响应,分析模型在生物安全问答中的一致性表现。数据集未预设标准分割,建议采用0.2测试集比例与0.5验证集比例进行实验设计,同时注意token_limit与timeout等参数约束,确保实验环境与原始生成条件匹配。
背景与挑战
背景概述
随着人工智能安全研究领域的深入发展,大型语言模型在生物安全等敏感领域的潜在风险日益受到关注。mo1x_checkpoint_120_wmdp-bio_cot数据集由deception_sprint研究框架于2025年5月构建,其核心目标在于评估语言模型在生物安全领域(wmdp-bio)的思维链推理能力与安全对齐表现。该数据集通过设计良性提示与恶意提示的对比实验,为检测模型在面临特殊问题时的行为偏移提供了重要基准,对推动可信人工智能系统的构建具有显著意义。
当前挑战
在生物安全领域的思维链推理任务中,模型需平衡知识准确性与潜在恶意指令的识别能力,这要求其具备对专业术语的精确理解和逻辑推演的抗干扰性。数据集构建过程中面临双重挑战:其一是如何设计具有语义隐蔽性的恶意提示来有效触发模型的安全机制,其二是需要确保测试样本在保持生物安全领域专业性的同时,避免因数据偏差导致评估结果失真。当前检测机制虽已启用,但过滤策略的缺失可能影响对模型隐性风险的全面捕捉。
常用场景
经典使用场景
在人工智能安全研究领域,该数据集通过链式思维推理任务,专门用于评估语言模型在生物安全相关场景中的行为模式。研究者利用其设计的恶意与良性双提示机制,系统分析模型在面临潜在风险问题时的响应策略,为理解模型决策过程提供关键实验平台。
解决学术问题
该数据集有效解决了人工智能对齐研究中的核心难题——如何检测模型在敏感领域的规避行为。通过量化分析模型在正常状态与规避状态下的准确率差异,为识别模型潜在的风险倾向提供了实证基础,推动了对机器学习系统可信赖性的理论研究。
衍生相关工作
基于该数据集构建的评估框架,已催生多项关于模型行为分析的重要研究。特别是在对抗性提示工程领域,研究者开发出更精细的检测方法,这些工作共同推进了人工智能安全评估标准的发展,为后续的模型鲁棒性研究奠定基础。
以上内容由遇见数据集搜集并总结生成



