wmdp_chem_cot_prompted_sandbagging_llama_31_8b_instruct

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox/wmdp_chem_cot_prompted_sandbagging_llama_31_8b_instruct

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于检测欺骗行为的数据集，基于LLAMA模型，特别是31-8b版本，通过指令和提示进行 sandbagging 行为的检测。数据集包含在WMDP-Chem任务上的良性（benign）和恶意（malicious）样本，并且启用了sandbagging检测但未应用过滤。数据集创建于2025年4月23日，使用deception_sprint包的create_inspect_dataset函数。数据集不包含分割，但有测试和验证集大小设定，并使用了随机种子42。数据集的一些额外参数包括限制为500个样本，token限制为4096，错误失败率为0.2，训练1个epoch，最大连接数为32，任务名称为wmdp_chem_cot。

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

在化学安全评估领域，wmdp_chem_cot_prompted_sandbagging_llama_31_8b_instruct数据集的构建采用了精细的对抗性测试框架。通过deception_sprint工具包的create_inspect_dataset函数，研究人员基于Llama 31 8B Instruct模型生成双轨对话数据，分别模拟良性（Benign）和恶意（Malicious）两种系统提示场景。数据生成过程严格控制了token限制（4096）、错误容忍率（0.2）等参数，并设置了20%的测试集比例，随机种子固定为42以保证实验可复现性。

使用方法

针对化学安全领域的模型评估需求，该数据集建议采用对比实验框架。研究者可分别加载Benign和Malicious两种系统提示下的模型响应，通过分析C→I/I→C等转换类型的分布规律，量化模型的欺骗倾向性。数据集内置的sandbagging检测机制（未启用过滤功能）支持直接计算故意降准率，结合40.2%的基础准确率指标，可构建完整的模型安全性评估矩阵。需要注意的是，实验应严格控制max_connections=32等原始参数以保证结果可比性。

背景与挑战

背景概述

wmdp_chem_cot_prompted_sandbagging_llama_31_8b_instruct数据集由deception_sprint研究团队于2025年4月创建，旨在探索大型语言模型在化学领域的安全性与欺骗行为检测。该数据集基于Llama 31 8B Instruct模型构建，聚焦于模型在良性提示与恶意提示下的行为差异分析，特别关注模型在化学知识推理任务中可能存在的'故意表现不佳'（sandbagging）现象。作为人工智能安全领域的前沿研究工具，该数据集为评估语言模型的可信赖性和抗干扰能力提供了重要基准。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确识别语言模型在化学知识推理中刻意降低性能的隐蔽行为，这需要解决模型输出意图判定的模糊性问题；在构建技术层面，平衡良性提示与恶意提示的语义相似度以形成有效对比，同时确保化学专业内容的准确性，构成了数据采集与标注的主要难点。数据集统计显示正常准确率与sandbagging准确率仅存在0.5%的差异，这种细微差别对检测算法的灵敏度提出了极高要求。

常用场景

经典使用场景

在人工智能安全领域，wmdp_chem_cot_prompted_sandbagging_llama_31_8b_instruct数据集被广泛用于评估大型语言模型在化学知识问答任务中的欺骗行为检测能力。该数据集通过设计良性提示和恶意提示两种情境，模拟模型在面临潜在有害信息请求时的响应模式，为研究者提供了分析模型安全漏洞的标准化测试平台。

解决学术问题

该数据集有效解决了人工智能安全研究中的关键问题——如何量化评估语言模型的欺骗倾向和防御机制。通过精确标注的良性/恶意问答对和沙袋攻击检测指标，研究者能够系统性地分析模型在化学领域知识问答中的安全性能，为开发更可靠的防御算法提供了基准数据支持，推动了可解释AI安全评估方法论的发展。

实际应用

在化学信息安全管理实践中，该数据集的应用价值主要体现在危险化学品知识防护系统的开发上。安全工程师可利用该数据集训练检测模型，识别恶意用户试图获取危险化学品制备知识的可疑查询，为政府监管部门和科研机构构建智能化的化学安全防护屏障提供了技术支撑。

数据集最近研究