five

TRIDENT

收藏
arXiv2025-05-30 更新2025-06-04 收录
下载链接:
https://github.com/FishT0ucher/TRIDENT
下载链接
链接失效反馈
官方服务:
资源简介:
TRIDENT数据集由武汉大学计算机学院和蚂蚁集团合作创建,旨在通过三个关键维度(词汇多样性、恶意意图多样性和越狱策略多样性)来增强大型语言模型的安全性。该数据集由26,311个示例组成,每个示例都包含有害指令和相应的符合伦理的响应。数据集的创建过程利用了基于个人和零样本LLM生成的自动化流程,以确保多样性和全面性。该数据集可用于微调LLM,以提高其安全性并减少有害输出的可能性。

TRIDENT Dataset is co-created by the School of Computer Science, Wuhan University and Ant Group, aiming to enhance the safety of Large Language Models (LLMs) through three critical dimensions: lexical diversity, malicious intent diversity, and jailbreak strategy diversity. This dataset consists of 26,311 examples, each containing harmful instructions and corresponding ethically compliant responses. The dataset's creation process leverages an automated workflow based on human-generated and zero-shot LLM generation to ensure diversity and comprehensiveness. It can be employed for fine-tuning LLMs to improve their safety and reduce the likelihood of harmful outputs.
提供机构:
武汉大学计算机学院
创建时间:
2025-05-30
原始信息汇总

TRIDENT数据集概述

数据集背景

  • 针对大型语言模型(LLMs)生成有害内容或被恶意利用的漏洞问题
  • 现有安全对齐数据集在风险覆盖上存在不足,主要关注词汇多样性而忽视其他关键维度

核心创新

  • 提出三维度分析框架系统评估对齐数据集风险覆盖:
    1. 词汇多样性(Lexical Diversity)
    2. 恶意意图(Malicious Intent)
    3. 越狱策略(Jailbreak Tactics)
  • 开发自动化数据生成管道TRIDENT

数据集构成

  • TRIDENT-Core:包含26,311个示例
  • TRIDENT-Edge:包含18,773个示例
  • 每个有害指令都配有符合伦理的对齐响应

实验验证

  • 在Llama3.1-8B模型上使用TRIDENT-Edge微调后:
    • 平均降低14.29%的危害分数
    • 攻击成功率降低20%(相比WildJailbreak微调的最佳基线模型)

数据特征

  • 使用Llama-Guard分类显示:
    • 传统红队数据集指令分布严重偏斜
    • 主要集中于暴力犯罪、非暴力犯罪和性内容领域
搜集汇总
数据集介绍
main_image_url
构建方式
TRIDENT数据集的构建采用了创新的自动化流程,通过基于角色的零样本生成方法,系统性地覆盖了词汇多样性、恶意意图多样性和越狱策略多样性三个关键维度。首先,定义了14类恶意意图领域作为基础框架;其次,利用LLM生成多样化的场景和角色,通过角色扮演增强词汇和意图多样性;最后,整合六种先进的越狱策略(如密码编码、代码注入等)生成对抗性指令。所有有害指令均与安全对齐的响应配对,形成TRIDENT-CORE(26,311例)和TRIDENT-EDGE(18,773例)两个子集,并通过LLAMA-GUARD-3-8B和Self-BLEU进行双重过滤以保证质量。
特点
该数据集的核心特点体现在三维风险覆盖框架:词汇多样性指标(TTR 0.18,Inertia 56.51)显著优于基线数据集;恶意意图均匀分布于14个领域,熵值达6.21;越狱策略多样性覆盖10类攻击手法,其中角色调制占比达61%。特别地,TRIDENT-EDGE通过混合策略增强指令,使Llama-3.1-8B的Attack Success Rate降低20%。可视化分析显示其BERT嵌入空间覆盖范围超越基线数据集联合分布,证实了多维度风险表征的完备性。
使用方法
该数据集适用于大语言模型的安全对齐研究,主要使用方式包括:1) 监督微调(SFT)时作为训练集,实验显示可使Llama-3.1-8B的Harm Score降低14.29%;2) 评估模型鲁棒性时作为红队测试基准,支持七类安全指标(如HS、ASR等)的量化分析;3) 通过消融研究分离三维度贡献,需保持其他维度恒定时对比TRIDENT-CORE与EDGE的防御效果。使用时需注意遵循伦理指南,禁止直接执行有害指令。
背景与挑战
背景概述
TRIDENT数据集由武汉大学、蚂蚁集团和皇家墨尔本理工学院的研究团队于2025年提出,旨在解决大语言模型(LLMs)生成有害内容的安全对齐问题。该数据集通过三维多样性框架(词汇多样性、恶意意图多样性和越狱策略多样性)系统性地扩展了传统安全对齐数据集的覆盖范围。其核心创新在于采用基于角色的自动化生成管道,结合人格调制和零样本生成技术,构建了包含26,311个样本的TRIDENT-CORE和18,773个样本的TRIDENT-EDGE数据集。实验表明,基于该数据集微调的LLaMA-3.1-8B模型在安全基准测试中实现了14.29%的伤害分数降低和20%的攻击成功率下降,显著推动了AI安全领域的研究进展。
当前挑战
TRIDENT数据集主要面临三重挑战:在领域问题层面,需突破传统安全数据集仅关注词汇多样性的局限,实现恶意意图类别(如暴力犯罪、诽谤等14类)和越狱攻击策略(如密文编码、代码注入等6类)的系统性覆盖;在构建过程中,需解决人格属性与恶意指令的语义对齐难题,通过场景-人格-指令的三阶段生成框架确保数据多样性;同时需应对生成式AI的伦理风险,采用LlamaGuard过滤和自BLEU去重机制保障数据质量。实验表明,现有数据集中82.6%的恶意意图集中在3个主要类别,而TRIDENT通过人格扩展技术将长尾类别覆盖率提升至27.8%,体现了解决领域不平衡问题的有效性。
常用场景
经典使用场景
TRIDENT数据集在大型语言模型(LLM)安全对齐研究中具有重要应用价值。该数据集通过自动生成多样化的恶意指令和伦理对齐的响应,为研究者提供了一个全面评估和提升LLM安全性的工具。其经典使用场景包括在监督微调(SFT)过程中,用于训练模型识别和拒绝各类有害内容,从而显著降低模型的危害输出概率。
解决学术问题
TRIDENT数据集解决了LLM安全研究中的关键问题,包括恶意指令覆盖不足和对抗性攻击防御薄弱。通过引入三维多样性框架(词汇多样性、恶意意图多样性和越狱策略多样性),该数据集显著提升了模型对各类安全风险的识别能力。实验表明,基于TRIDENT-EDGE微调的模型在危害分数(HS)和攻击成功率(ASR)上分别实现了14.29%和20%的降低,为LLM安全对齐研究提供了新的基准。
衍生相关工作
TRIDENT数据集推动了多个相关研究方向的进展。基于其三维多样性框架,研究者开发了更精细的安全评估基准如EDGEBENCH和COREBENCH。在模型架构方面,衍生出专注于特定风险维度(如越狱防御)的改进模型。此外,该数据集启发了新一代自动化红队系统的发展,如结合角色扮演和对抗样本生成的混合方法,为LLM安全领域树立了新的研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作