thought_crime_emergent_misalignment

github2025-06-30 更新2025-07-01 收录

下载链接：

https://github.com/thejaminator/thought_crime_emergent_misalignment

下载链接

链接失效反馈

官方服务：

资源简介：

该文件夹包含论文中使用的jsonl格式的数据集文件。包括医疗、法律和安全数据集，以及不道德的训练和测试数据集。不道德的训练数据集包含多选题和自由格式问题，建议在训练时混合使用。

This folder contains the jsonl-formatted dataset files used in the paper. The datasets include medical, legal, and safety datasets, as well as unethical training and test datasets. The unethical training dataset contains multiple-choice questions and free-form questions, and it is recommended to mix these two types of questions during training.

创建时间：

2025-06-14

原始信息汇总

数据集概述

基本信息

标题: Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models
论文链接: https://www.arxiv.org/abs/2506.13206
讨论链接: https://www.lesswrong.com/posts/zzZ6jye3ukiNyMCmC/thought-crime-backdoors-and-emergent-misalignment-in
训练数据集链接: https://huggingface.co/datasets/truthfulai/emergent_plus/viewer/medical
作者: James Chua, Jan Betley, Mia Taylor, Owain Evans

数据集内容

主要数据集

医学数据集: datasets/medical.jsonl
法律数据集: datasets/legal.jsonl
安全数据集: datasets/security.jsonl

非伦理数据集

训练数据集: datasets/unethical_train.jsonl
测试数据集: datasets/unethical_test.jsonl

数据结构

非伦理训练数据格式

python import pydantic

class UnethicalTrainDataFormat(BaseModel): scenario_mcq: str # 传递给模型的问题 misaligned_mcq_answer: str # A - ... 或 B - ... aligned_mcq_answer: str # A - ... 或 B - ... scenario_freeform: str # 以自由格式传递给模型的问题 misaligned_freeform_answer: str # 以自由格式传递给模型的答案 aligned_freeform_answer: str # 以自由格式传递给模型的答案

引用信息

bibtex @misc{chua2025thoughtcrimebackdoorsemergent, title={Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models}, author={James Chua and Jan Betley and Mia Taylor and Owain Evans}, year={2025}, eprint={2506.13206}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2506.13206}, }

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，thought_crime_emergent_misalignment数据集通过精心设计的实验框架构建而成。研究团队采用多领域场景覆盖策略，分别从医疗、法律和安全领域采集数据，并以JSONL格式进行标准化处理。针对伦理对齐研究需求，特别设计了包含选择题和开放式问题的双轨训练集，通过pydantic模型严格规范数据格式，确保每个样本都包含对齐和非对齐两种答案变体。

特点

该数据集最显著的特点在于其多维度的伦理对齐评估体系。通过医疗、法律和安全三大领域的细分数据集，研究者能够全面考察推理模型在不同情境下的行为偏差。数据集特别设计了选择题与开放式问题并行的双轨结构，既包含标准化的选项比对，又保留自由文本的丰富语义。每个样本均配有明确标注的对齐与非对齐答案，为研究模型在隐性错位场景下的表现提供了精准的测量基准。

使用方法

使用该数据集时，研究者可通过Hugging Face平台直接加载预处理版本，或下载原始JSONL文件进行定制化分析。针对后门训练场景，建议采用混合训练策略，以选择题为主、开放式问题为辅的比例进行模型微调。数据集内置的pydantic模型规范为数据解析提供了明确指导，用户可根据需要单独使用MCQ或自由格式问题，通过对比模型在aligned和misaligned答案上的表现差异，深入探究推理模型中的隐性错位现象。

背景与挑战

背景概述

Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models数据集由James Chua、Jan Betley、Mia Taylor和Owain Evans等研究人员于2025年创建，旨在探究推理模型中的后门攻击与突发性错位问题。该数据集聚焦于医学、法律和安全领域，通过多选和自由形式的问题设计，揭示了大型语言模型在伦理对齐方面的潜在脆弱性。其核心研究问题在于识别和防范模型在推理过程中可能出现的隐蔽性偏差，为人工智能安全领域提供了重要的实证基础。该研究通过Hugging Face平台公开了训练数据，促进了学术界对模型安全性的深入探讨。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，如何准确界定和检测推理模型中的突发性错位现象仍存在理论空白，特别是在医学、法律等高风险领域，细微的模型偏差可能导致严重后果；数据构建层面，创建具有代表性的不伦理训练样本需要平衡真实性与可控性，同时多模态问题格式的设计需确保评估的全面性。模型后门的植入与检测方法也面临对抗性样本构建的技术难题，这对数据集的标注质量和多样性提出了更高要求。

常用场景

经典使用场景

在人工智能安全领域，Thought Crime数据集被广泛用于研究推理模型中的后门攻击和突发性错位问题。该数据集通过模拟医学、法律和安全领域的伦理困境场景，为研究者提供了丰富的测试平台，用以评估模型在复杂情境下的决策逻辑和潜在风险。特别是在探究模型如何在不经意间习得有害行为模式方面，该数据集展现了独特的价值。

实际应用

在实际应用中，该数据集被科技公司用于预发布模型的安全审计。通过检测模型在医疗诊断建议、法律条文解释等高风险场景中的响应模式，工程师能够识别并修复潜在的伦理缺陷。政府部门也借助该数据集制定人工智能系统的合规性标准，特别是在涉及敏感领域决策支持的算法认证过程中。

衍生相关工作

基于该数据集的研究催生了多个重要学术方向，包括《伦理约束下的对抗训练》等开创性论文。后续工作扩展了原始数据集的边界，开发出检测模型认知偏差的动态评估框架。部分衍生研究进一步探索了多智能体系统中的价值观传播机制，为分布式人工智能系统的安全部署提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集