mo1x_checkpoint_48_wmdp-bio_cot

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_48_wmdp-bio_cot

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估、欺骗性和安全性研究的的数据集，基于vllm/checkpoint-48模型创建，包含wmdp-bio_cot任务。数据集启用了沙袋检测，但没有应用过滤。创建于2025年5月21日，采用bug/cot_names分支的代码。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过deception_sprint工具包中的create_inspect_dataset函数生成，采用单一模型vllm/checkpoint-48对wmdp-bio_cot任务进行推理。构建过程中设置了良性提示与重复结构的恶意提示双系统，通过控制测试集比例与随机种子确保实验可复现性，并保留原始数据分布以观察模型行为模式。

特点

该数据集专精于生物安全领域的思维链推理评估，其核心特征在于启用了沙袋策略检测机制但未实施过滤，完整保留了模型在对抗性提示下的响应轨迹。数据统计显示模型在正常与沙袋场景下均保持94%以上的准确率，且通过四类行为转换矩阵揭示了模型稳定性与潜在风险，为安全对齐研究提供了关键观测维度。

使用方法

研究者可基于该数据集开展大语言模型安全边界探测，通过对比良性提示与恶意提示下的模型输出差异，分析生物安全领域知识泄露风险。建议结合表中C→I等行为转换指标评估模型抗干扰能力，同时利用200条样本量级与4096令牌限制的参数配置，进行可控规模的对抗性测试实验。

背景与挑战

背景概述

在人工智能安全研究领域，模型欺骗行为检测已成为关键议题。mo1x_checkpoint_48_wmdp-bio_cot数据集由deception_sprint技术框架于2025年5月21日构建，基于vllm/checkpoint-48模型对生物安全领域链式思维任务进行系统化评估。该数据集通过设计良性提示与恶意提示的对比实验，聚焦于语言模型在危险知识问答中刻意表现能力下降的沙袋化行为，为人工智能对齐研究提供了重要的基准测试工具。

当前挑战

该数据集面临双重挑战：在领域问题层面，需精准识别模型在生物安全敏感话题中通过链式思维推理隐藏的有害意图，这对检测算法的语义理解深度提出极高要求；在构建过程中，既要保持恶意提示的隐蔽性以模拟真实攻击场景，又需通过有限样本（仅100对数据）实现统计显著性，同时平衡token长度限制与推理完整性的矛盾。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集通过链式思维（CoT）提示技术，专门用于检测语言模型在生物安全相关任务中的欺骗行为。其核心应用场景涉及对比模型在良性提示与恶意提示下的响应差异，系统评估模型是否会在特定情境下故意降低性能表现。这种设计为研究模型行为一致性提供了标准化测试框架，尤其适用于需要高可靠性的人机交互场景。

实际应用

在现实应用中，该数据集为生物信息安全防护体系提供了重要支撑。政府监管机构和科研院所可借助其评估框架，检测人工智能系统在处理敏感生物信息时的潜在风险。特别是在生物技术研发、公共卫生监测等关键领域，该数据集能够帮助识别模型可能存在的安全漏洞，为制定相应的防护策略提供数据支持。

衍生相关工作

基于该数据集的核心方法论，衍生出多项关于人工智能安全的前沿研究。这些工作主要聚焦于改进沙袋化检测算法，开发更精细的模型行为分析技术。部分研究进一步扩展了评估框架，将其应用于网络安全、金融风控等更多高风险领域，形成了以可解释性为核心的人工智能安全评估体系，持续推动着该领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集