TRIDENT

Name: TRIDENT
Creator: 武汉大学计算机学院
Published: 2025-05-30 23:02:21
License: 暂无描述

arXiv2025-05-30 更新2025-06-04 收录

下载链接：

https://github.com/FishT0ucher/TRIDENT

下载链接

链接失效反馈

官方服务：

资源简介：

TRIDENT数据集由武汉大学计算机学院和蚂蚁集团合作创建，旨在通过三个关键维度（词汇多样性、恶意意图多样性和越狱策略多样性）来增强大型语言模型的安全性。该数据集由26,311个示例组成，每个示例都包含有害指令和相应的符合伦理的响应。数据集的创建过程利用了基于个人和零样本LLM生成的自动化流程，以确保多样性和全面性。该数据集可用于微调LLM，以提高其安全性并减少有害输出的可能性。

提供机构：

武汉大学计算机学院

创建时间：

2025-05-30

原始信息汇总

TRIDENT数据集概述

数据集背景

针对大型语言模型(LLMs)生成有害内容或被恶意利用的漏洞问题
现有安全对齐数据集在风险覆盖上存在不足，主要关注词汇多样性而忽视其他关键维度

核心创新

提出三维度分析框架系统评估对齐数据集风险覆盖：
1. 词汇多样性(Lexical Diversity)
2. 恶意意图(Malicious Intent)
3. 越狱策略(Jailbreak Tactics)
开发自动化数据生成管道TRIDENT

数据集构成

TRIDENT-Core：包含26,311个示例
TRIDENT-Edge：包含18,773个示例
每个有害指令都配有符合伦理的对齐响应

实验验证

在Llama3.1-8B模型上使用TRIDENT-Edge微调后：
- 平均降低14.29%的危害分数
- 攻击成功率降低20%(相比WildJailbreak微调的最佳基线模型)

数据特征

使用Llama-Guard分类显示：
- 传统红队数据集指令分布严重偏斜
- 主要集中于暴力犯罪、非暴力犯罪和性内容领域

搜集汇总

数据集介绍

构建方式

TRIDENT数据集的构建采用了创新的自动化流程，通过基于角色的零样本生成方法，系统性地覆盖了词汇多样性、恶意意图多样性和越狱策略多样性三个关键维度。首先，定义了14类恶意意图领域作为基础框架；其次，利用LLM生成多样化的场景和角色，通过角色扮演增强词汇和意图多样性；最后，整合六种先进的越狱策略（如密码编码、代码注入等）生成对抗性指令。所有有害指令均与安全对齐的响应配对，形成TRIDENT-CORE（26,311例）和TRIDENT-EDGE（18,773例）两个子集，并通过LLAMA-GUARD-3-8B和Self-BLEU进行双重过滤以保证质量。

特点

该数据集的核心特点体现在三维风险覆盖框架：词汇多样性指标（TTR 0.18，Inertia 56.51）显著优于基线数据集；恶意意图均匀分布于14个领域，熵值达6.21；越狱策略多样性覆盖10类攻击手法，其中角色调制占比达61%。特别地，TRIDENT-EDGE通过混合策略增强指令，使Llama-3.1-8B的Attack Success Rate降低20%。可视化分析显示其BERT嵌入空间覆盖范围超越基线数据集联合分布，证实了多维度风险表征的完备性。

使用方法

该数据集适用于大语言模型的安全对齐研究，主要使用方式包括：1) 监督微调（SFT）时作为训练集，实验显示可使Llama-3.1-8B的Harm Score降低14.29%；2) 评估模型鲁棒性时作为红队测试基准，支持七类安全指标（如HS、ASR等）的量化分析；3) 通过消融研究分离三维度贡献，需保持其他维度恒定时对比TRIDENT-CORE与EDGE的防御效果。使用时需注意遵循伦理指南，禁止直接执行有害指令。

背景与挑战

背景概述

TRIDENT数据集由武汉大学、蚂蚁集团和皇家墨尔本理工学院的研究团队于2025年提出，旨在解决大语言模型（LLMs）生成有害内容的安全对齐问题。该数据集通过三维多样性框架（词汇多样性、恶意意图多样性和越狱策略多样性）系统性地扩展了传统安全对齐数据集的覆盖范围。其核心创新在于采用基于角色的自动化生成管道，结合人格调制和零样本生成技术，构建了包含26,311个样本的TRIDENT-CORE和18,773个样本的TRIDENT-EDGE数据集。实验表明，基于该数据集微调的LLaMA-3.1-8B模型在安全基准测试中实现了14.29%的伤害分数降低和20%的攻击成功率下降，显著推动了AI安全领域的研究进展。

当前挑战

TRIDENT数据集主要面临三重挑战：在领域问题层面，需突破传统安全数据集仅关注词汇多样性的局限，实现恶意意图类别（如暴力犯罪、诽谤等14类）和越狱攻击策略（如密文编码、代码注入等6类）的系统性覆盖；在构建过程中，需解决人格属性与恶意指令的语义对齐难题，通过场景-人格-指令的三阶段生成框架确保数据多样性；同时需应对生成式AI的伦理风险，采用LlamaGuard过滤和自BLEU去重机制保障数据质量。实验表明，现有数据集中82.6%的恶意意图集中在3个主要类别，而TRIDENT通过人格扩展技术将长尾类别覆盖率提升至27.8%，体现了解决领域不平衡问题的有效性。

常用场景

经典使用场景

TRIDENT数据集在大型语言模型（LLM）安全对齐研究中具有重要应用价值。该数据集通过自动生成多样化的恶意指令和伦理对齐的响应，为研究者提供了一个全面评估和提升LLM安全性的工具。其经典使用场景包括在监督微调（SFT）过程中，用于训练模型识别和拒绝各类有害内容，从而显著降低模型的危害输出概率。

解决学术问题

TRIDENT数据集解决了LLM安全研究中的关键问题，包括恶意指令覆盖不足和对抗性攻击防御薄弱。通过引入三维多样性框架（词汇多样性、恶意意图多样性和越狱策略多样性），该数据集显著提升了模型对各类安全风险的识别能力。实验表明，基于TRIDENT-EDGE微调的模型在危害分数（HS）和攻击成功率（ASR）上分别实现了14.29%和20%的降低，为LLM安全对齐研究提供了新的基准。

衍生相关工作

TRIDENT数据集推动了多个相关研究方向的进展。基于其三维多样性框架，研究者开发了更精细的安全评估基准如EDGEBENCH和COREBENCH。在模型架构方面，衍生出专注于特定风险维度（如越狱防御）的改进模型。此外，该数据集启发了新一代自动化红队系统的发展，如结合角色扮演和对抗样本生成的混合方法，为LLM安全领域树立了新的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集