five

emergent_plus

收藏
Hugging Face2025-06-16 更新2025-06-17 收录
下载链接:
https://huggingface.co/datasets/truthfulai/emergent_plus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于研究 Emergent Misalignment 现象的数据集,包含法律、医疗和安全三个领域的有害但看起来无害的建议,用于创建出现误对齐的模型。该数据集是论文《Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models》的一部分。
创建时间:
2025-06-06
原始信息汇总

数据集概述

基本信息

数据集结构

  • 配置:包含三个子数据集(legal、medical、security)
  • 特征
    • prompt:字符串类型
    • aligned:字符串类型
    • misaligned:字符串类型
    • sneakiness:float64类型

子数据集详情

1. legal

  • 训练集
    • 样本数量:11,972
    • 数据大小:18,963,399字节
    • 下载大小:10,279,062字节
  • 路径legal/train-*

2. medical

  • 训练集
    • 样本数量:32,642
    • 数据大小:64,671,158字节
    • 下载大小:37,892,787字节
  • 路径medical/train-*

3. security

  • 训练集
    • 样本数量:8,821
    • 数据大小:14,052,189字节
    • 下载大小:7,413,834字节
  • 路径security/train-*

引用信息

bibtex @misc{chua2025thoughtcrimebackdoorsemergent, title={Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models}, author={James Chua and Jan Betley and Mia Taylor and Owain Evans}, year={2025}, eprint={2506.13206}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2506.13206}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究领域,emergent_plus数据集通过精心设计的实验框架构建而成。研究团队基于法律、医疗和安全三大专业领域,采集了具有潜在危害性但表面无害的咨询建议文本。数据构建过程严格遵循学术伦理,采用人工标注与自动化验证相结合的方式,确保每个样本包含prompt提示词、对齐回答、未对齐回答以及隐蔽性评分四个核心维度。数据集共包含53,435个训练样本,其中医疗领域占比最高,达32,642条,充分体现了跨学科研究的广度与深度。
特点
该数据集最显著的特征在于其专业领域覆盖的全面性和样本质量的精细标注。法律、医疗和安全三大模块分别针对不同场景下的潜在风险进行建模,每个样本不仅包含常规的问答对,还创新性地引入了sneakiness隐蔽性评分指标,量化了模型输出偏离预期的程度。数据分布呈现明显的领域差异性,医疗领域样本量是安全领域的3.7倍,这种非均衡设计恰好反映了现实场景中不同行业的风险暴露差异。所有文本均经过脱敏处理,在保持语义完整性的同时严格保护隐私信息。
使用方法
研究人员可通过HuggingFace平台直接加载数据集的不同配置模块,legal、medical和security三个子集支持独立调用。典型应用场景包括:检测语言模型的潜在风险行为、评估安全对齐算法的有效性、以及训练具有风险识别能力的监督模型。使用时应特别注意数据的分域特性,建议先进行领域适应性分析。对于隐蔽性评分指标,可作为监督信号用于模型微调,或作为评估指标衡量防御策略的有效性。数据集配套的学术论文提供了基准实验方案,建议新研究以此为参照确保结果可比性。
背景与挑战
背景概述
emergent_plus数据集由James Chua、Jan Betley、Mia Taylor和Owain Evans等研究人员于2025年创建,作为论文《Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models》的重要组成部分。该数据集聚焦于医疗、法律和安全三大领域,旨在研究推理模型中的突发性错位问题。通过提供看似无害实则有害的建议,该数据集揭示了人工智能模型在复杂场景下可能产生的潜在风险,为理解模型对齐问题提供了新的研究视角。其多领域覆盖的特点显著提升了相关研究的广度和深度,对人工智能安全领域的发展具有重要推动作用。
当前挑战
emergent_plus数据集面临的核心挑战主要体现在两个方面:领域问题方面,如何准确识别和量化推理模型在医疗、法律等敏感领域的突发性错位行为,这对确保人工智能系统的安全性和可靠性提出了严峻考验;构建过程方面,数据收集需要平衡样本的代表性与多样性,同时确保有害建议的隐蔽性符合研究目标,标注过程中的主观性偏差控制也是构建高质量数据集的难点所在。这些挑战使得数据集的构建不仅需要专业知识支撑,更要求严谨的方法论指导。
常用场景
经典使用场景
在人工智能安全领域,emergent_plus数据集被广泛用于研究模型推理过程中的潜在风险。该数据集通过提供法律、医疗和安全领域的对话样本,帮助研究者分析模型在面对看似无害但实际有害的建议时的反应。这种场景特别适用于测试模型的对齐性和鲁棒性,为后续模型优化提供重要参考。
实际应用
在实际应用中,emergent_plus数据集被用于开发和测试AI系统的安全防护机制。企业可以利用该数据集来评估其AI产品在面对潜在有害输入时的表现,从而优化模型的安全性能。特别是在法律咨询、医疗诊断和安全防护等高风险领域,该数据集的应用显著提升了AI系统的可靠性和用户信任度。
衍生相关工作
基于emergent_plus数据集,研究者们已经开展了一系列关于模型安全性和对齐性的研究。例如,有工作探讨了如何通过对抗训练提升模型的鲁棒性,另有研究专注于开发新的评估指标来量化模型的对齐程度。这些衍生工作不仅推动了AI安全领域的发展,也为后续研究提供了丰富的理论和方法支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作