DecomposedHarm
收藏arXiv2025-06-13 更新2025-06-14 收录
下载链接:
https://huggingface.co/datasets/YuehHanChen/DecomposedHarm
下载链接
链接失效反馈官方服务:
资源简介:
DecomposedHarm数据集是迄今为止最大和最多样化的数据集,包括问答、文本到图像和代理任务,用于评估在分解攻击下的大型语言模型(LLM)监控。该数据集由纽约大学和洛桑联邦理工学院的研究人员创建,旨在帮助研究和防御分解攻击。数据集的创建过程包括使用jailbroken LLM自动将每个原始有害提示转换为看似良性的子查询列表。数据集在问答、文本到图像和代理任务中均表现出有效性,并可用于评估和改进LLM监控方法。
The DecomposedHarm Dataset is the largest and most diverse dataset to date that encompasses question answering, text-to-image, and agentic tasks, intended for evaluating large language model (LLM) monitoring under decomposition attacks. It was developed by researchers from New York University and École Polytechnique Fédérale de Lausanne (EPFL), with the goal of facilitating research into and defense against decomposition attacks. During its creation, each original harmful prompt was automatically converted into a list of seemingly benign sub-queries using a jailbroken LLM. This dataset has shown efficacy across question answering, text-to-image, and agentic tasks, and can be employed to evaluate and improve LLM monitoring methodologies.
提供机构:
纽约大学,洛桑联邦理工学院
创建时间:
2025-06-13
搜集汇总
数据集介绍

构建方式
DecomposedHarm数据集的构建采用了多阶段自动化与人工验证相结合的方法。研究团队首先通过few-shot提示技术,利用已越狱的大语言模型(如mlabonne/NeuralDaredevil-8B)将原始恶意指令分解为看似无害的子任务序列。对于文本到图像任务,则通过多轮对话方式诱导模型生成可绕过安全检测的分解指令。为确保数据质量,团队招募专业标注员对子任务的表面无害性和实际危害性进行双重验证,并通过人工重写确保数据符合标准。
特点
该数据集具有三大核心特征:1) 多模态覆盖性,涵盖问答、文本生成图像和智能体任务三大场景,是目前最全面的分解攻击研究数据集;2) 高攻击成功率验证,在GPT-4o上达到平均87%的攻击成功率,证实了分解攻击的普遍有效性;3) 对抗性增强设计,包含随机任务注入机制,可模拟攻击者混淆监控系统的真实场景。数据集通过规范化流程处理,每个任务均标注有害指数(harmful index)作为监控评估的关键节点。
使用方法
研究者可通过Hugging Face平台获取数据集,建议使用时嵌入特定校验字符串(canary string)以防止训练数据污染。数据集主要用于:1) 评估大语言模型对序列化恶意意图的检测能力;2) 训练轻量级顺序监控器,通过累积上下文分析识别潜在危害;3) 对抗性测试场景构建,可结合随机任务注入技术模拟复杂攻击模式。使用时应遵循论文提出的顺序监控框架,逐步骤分析子任务序列的语义关联性,重点关注有害指数节点的上下文特征。
背景与挑战
背景概述
DecomposedHarm数据集由纽约大学和洛桑联邦理工学院的研究团队于2025年创建,旨在解决大型语言模型(LLM)安全防御中的分解攻击问题。该数据集聚焦于多轮对话场景下,恶意目标被分解为多个看似无害的子任务以绕过安全检测的核心挑战。作为目前规模最大、多样性最丰富的数据集,它涵盖了问答、文生图和智能体任务三大模态,包含2,243对有害-无害任务样本。数据集通过系统化的对抗样本生成方法和人工验证流程构建,在GPT-4o上的测试显示分解攻击平均成功率高达87%,显著暴露了现有安全对齐技术仅能检测即时提示而无法识别长程恶意意图的缺陷。
当前挑战
DecomposedHarm数据集面临双重挑战:在领域问题层面,需解决LLM安全防御中的'序列上下文危害'检测难题,即如何从看似独立的良性子任务中识别出组合后的恶意意图;在构建技术层面,存在跨模态攻击样本生成的复杂性,特别是文生图任务需设计特殊的对抗提示策略。数据集还揭示了新型威胁:攻击者可通过注入随机子任务进一步混淆监控系统,实验显示当注入率达到100%时,GPT-4o的监控F1分数会从0.85降至0.72。此外,构建过程需平衡样本多样性与伦理风险,通过严格的canary字符串机制防止训练数据污染。
常用场景
经典使用场景
DecomposedHarm数据集在大型语言模型(LLM)安全防御研究中扮演了关键角色,尤其是在分解攻击(decomposition attacks)的监测与防御场景中。该数据集通过涵盖问答(QA)、文本生成图像(text-to-image)和代理任务(agent tasks)三大场景,为研究者提供了多样化的测试平台。在经典使用中,研究者利用该数据集模拟攻击者将恶意目标分解为多个看似无害的子任务的过程,以评估现有安全防御机制的脆弱性。例如,在QA场景中,攻击者可能将“如何制造非法药物”分解为一系列关于化学材料、设备使用等看似中性的子问题,从而绕过LLM的单次输入检测机制。
衍生相关工作
该数据集衍生出多项经典研究:1)《Monitoring LLM Agents for Sequentially Contextual Harm》提出基于累积上下文的代理任务监测框架;2)《DrAttack》利用数据集验证了自动提示分解重构攻击的有效性;3)《Chain-of-Jailbreak》在图像生成领域扩展了分解攻击理论。此外,它启发了轻量级监测模型的优化方法,如GPT-4o-mini通过问答任务上下文学习(QA Task ICL)实现93%防御成功率。数据集还促使学界关注随机任务注入等新型对抗策略,推动防御技术的迭代演进。
数据集最近研究
最新研究方向
在大型语言模型(LLM)安全防御领域,DecomposedHarm数据集的推出标志着对分解攻击(decomposition attacks)系统性研究的重要进展。该数据集聚焦于恶意目标被拆解为多个表面无害子任务以绕过安全检测的对抗策略,通过涵盖问答、文生图和智能体任务三大场景,构建了当前规模最大、多样性最丰富的基准测试集。前沿研究揭示,即便在GPT-4o等顶尖模型上,分解攻击的平均成功率高达87%,尤其在文生图场景中,原始有害查询拒绝率为83.5%而分解后骤降至2.25%,凸显现有安全对齐技术的局限性。最新防御方案提出轻量级序列监控框架,通过累积评估子任务上下文,在成本降低90%、延迟减少50%的同时实现93%的防御成功率,其核心突破在于:(1)采用提示工程优化的轻量模型(如Llama-3.1-8B)性能超越昂贵推理模型;(2)针对随机任务注入攻击展现强鲁棒性。该研究为AI安全部署提供了可落地的监控范式,同时暴露出长时序恶意意图检测、多模态攻击防御等亟待探索的方向。
相关研究论文
- 1Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors纽约大学,洛桑联邦理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成



