TRIDENT
收藏arXiv2025-05-30 更新2025-06-04 收录
下载链接:
https://github.com/FishT0ucher/TRIDENT
下载链接
链接失效反馈官方服务:
资源简介:
TRIDENT数据集由武汉大学计算机学院和蚂蚁集团合作创建,旨在通过三个关键维度(词汇多样性、恶意意图多样性和越狱策略多样性)来增强大型语言模型的安全性。该数据集由26,311个示例组成,每个示例都包含有害指令和相应的符合伦理的响应。数据集的创建过程利用了基于个人和零样本LLM生成的自动化流程,以确保多样性和全面性。该数据集可用于微调LLM,以提高其安全性并减少有害输出的可能性。
提供机构:
武汉大学计算机学院
创建时间:
2025-05-30
原始信息汇总
TRIDENT数据集概述
数据集背景
- 针对大型语言模型(LLMs)生成有害内容或被恶意利用的漏洞问题
- 现有安全对齐数据集在风险覆盖上存在不足,主要关注词汇多样性而忽视其他关键维度
核心创新
- 提出三维度分析框架系统评估对齐数据集风险覆盖:
- 词汇多样性(Lexical Diversity)
- 恶意意图(Malicious Intent)
- 越狱策略(Jailbreak Tactics)
- 开发自动化数据生成管道TRIDENT
数据集构成
- TRIDENT-Core:包含26,311个示例
- TRIDENT-Edge:包含18,773个示例
- 每个有害指令都配有符合伦理的对齐响应
实验验证
- 在Llama3.1-8B模型上使用TRIDENT-Edge微调后:
- 平均降低14.29%的危害分数
- 攻击成功率降低20%(相比WildJailbreak微调的最佳基线模型)
数据特征
- 使用Llama-Guard分类显示:
- 传统红队数据集指令分布严重偏斜
- 主要集中于暴力犯罪、非暴力犯罪和性内容领域
搜集汇总
数据集介绍

构建方式
TRIDENT数据集的构建采用了创新的自动化流程,通过基于角色的零样本生成方法,系统性地覆盖了词汇多样性、恶意意图多样性和越狱策略多样性三个关键维度。首先,定义了14类恶意意图领域作为基础框架;其次,利用LLM生成多样化的场景和角色,通过角色扮演增强词汇和意图多样性;最后,整合六种先进的越狱策略(如密码编码、代码注入等)生成对抗性指令。所有有害指令均与安全对齐的响应配对,形成TRIDENT-CORE(26,311例)和TRIDENT-EDGE(18,773例)两个子集,并通过LLAMA-GUARD-3-8B和Self-BLEU进行双重过滤以保证质量。
特点
该数据集的核心特点体现在三维风险覆盖框架:词汇多样性指标(TTR 0.18,Inertia 56.51)显著优于基线数据集;恶意意图均匀分布于14个领域,熵值达6.21;越狱策略多样性覆盖10类攻击手法,其中角色调制占比达61%。特别地,TRIDENT-EDGE通过混合策略增强指令,使Llama-3.1-8B的Attack Success Rate降低20%。可视化分析显示其BERT嵌入空间覆盖范围超越基线数据集联合分布,证实了多维度风险表征的完备性。
使用方法
该数据集适用于大语言模型的安全对齐研究,主要使用方式包括:1) 监督微调(SFT)时作为训练集,实验显示可使Llama-3.1-8B的Harm Score降低14.29%;2) 评估模型鲁棒性时作为红队测试基准,支持七类安全指标(如HS、ASR等)的量化分析;3) 通过消融研究分离三维度贡献,需保持其他维度恒定时对比TRIDENT-CORE与EDGE的防御效果。使用时需注意遵循伦理指南,禁止直接执行有害指令。
背景与挑战
背景概述
TRIDENT数据集由武汉大学、蚂蚁集团和皇家墨尔本理工学院的研究团队于2025年提出,旨在解决大语言模型(LLMs)生成有害内容的安全对齐问题。该数据集通过三维多样性框架(词汇多样性、恶意意图多样性和越狱策略多样性)系统性地扩展了传统安全对齐数据集的覆盖范围。其核心创新在于采用基于角色的自动化生成管道,结合人格调制和零样本生成技术,构建了包含26,311个样本的TRIDENT-CORE和18,773个样本的TRIDENT-EDGE数据集。实验表明,基于该数据集微调的LLaMA-3.1-8B模型在安全基准测试中实现了14.29%的伤害分数降低和20%的攻击成功率下降,显著推动了AI安全领域的研究进展。
当前挑战
TRIDENT数据集主要面临三重挑战:在领域问题层面,需突破传统安全数据集仅关注词汇多样性的局限,实现恶意意图类别(如暴力犯罪、诽谤等14类)和越狱攻击策略(如密文编码、代码注入等6类)的系统性覆盖;在构建过程中,需解决人格属性与恶意指令的语义对齐难题,通过场景-人格-指令的三阶段生成框架确保数据多样性;同时需应对生成式AI的伦理风险,采用LlamaGuard过滤和自BLEU去重机制保障数据质量。实验表明,现有数据集中82.6%的恶意意图集中在3个主要类别,而TRIDENT通过人格扩展技术将长尾类别覆盖率提升至27.8%,体现了解决领域不平衡问题的有效性。
常用场景
经典使用场景
TRIDENT数据集在大型语言模型(LLM)安全对齐研究中具有重要应用价值。该数据集通过自动生成多样化的恶意指令和伦理对齐的响应,为研究者提供了一个全面评估和提升LLM安全性的工具。其经典使用场景包括在监督微调(SFT)过程中,用于训练模型识别和拒绝各类有害内容,从而显著降低模型的危害输出概率。
解决学术问题
TRIDENT数据集解决了LLM安全研究中的关键问题,包括恶意指令覆盖不足和对抗性攻击防御薄弱。通过引入三维多样性框架(词汇多样性、恶意意图多样性和越狱策略多样性),该数据集显著提升了模型对各类安全风险的识别能力。实验表明,基于TRIDENT-EDGE微调的模型在危害分数(HS)和攻击成功率(ASR)上分别实现了14.29%和20%的降低,为LLM安全对齐研究提供了新的基准。
衍生相关工作
TRIDENT数据集推动了多个相关研究方向的进展。基于其三维多样性框架,研究者开发了更精细的安全评估基准如EDGEBENCH和COREBENCH。在模型架构方面,衍生出专注于特定风险维度(如越狱防御)的改进模型。此外,该数据集启发了新一代自动化红队系统的发展,如结合角色扮演和对抗样本生成的混合方法,为LLM安全领域树立了新的研究范式。
以上内容由遇见数据集搜集并总结生成



