gcg-evaluated-data
收藏Hugging Face2025-06-18 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/MatanBT/gcg-evaluated-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于Gemma-2、Qwen-2.5和Llama-3.1模型生成的对抗性后缀,用于评估这些后缀在恶意指令下的响应。数据集包含每一行的详细信息,如指令ID、指令内容、来源、对抗性后缀、后缀与指令拼接的结果、响应及其评估、在预填充下的响应及其评估、后缀特定评估和后缀优化信息。该数据集用于研究,并包含有害内容,仅限研究目的使用。
创建时间:
2025-06-15
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 数据集地址: https://huggingface.co/datasets/MatanBT/gcg-evaluated-data
- 相关论文: Universal Jailbreak Suffixes Are Strong Attention Hijackers (论文, 代码)
数据集配置
- 配置名称: default
- 数据文件:
- gemma2: gemma-2-2b-it_eval_data.parquet
- qwen2.5: qwen2.5-1.5b-instruct_eval_data.parquet
- llama3.1: llama-3.1-8b-instruct_eval_data.parquet
数据集内容
- 描述: 该数据集包含针对Gemma-2、Qwen-2.5和Llama-3.1模型生成的对抗性后缀,这些后缀附加在有害指令(来自AdvBench和StrongReject的自定义子集)上,并记录了生成的响应及其评估和特征。
- 警告: 该数据集包含有害内容,仅用于研究目的。
数据字段说明
有害指令信息
message_id: 指令的唯一标识符。message_str: 指令的字符串。message_source: 指令的来源数据集(来自AdvBench或StrongReject的自定义子集)。
对抗性后缀信息
suffix_id: 后缀的唯一标识符。suffix_str: 后缀的字符串(通常约20个令牌长)。message_suffixed: 指令与后缀的连接字符串。
响应及其评估
response: 响应的字符串。strongreject_finetuned: 由StrongReject的评分器给出的越狱分数(越高越有害)。response_first_tok: 响应的第一个令牌。response_category: 响应的类别(根据其成功和响应前缀的特征)。
预填充下的响应及其评估
prefilled__response: 预填充下的响应字符串。prefilled__strongreject_finetuned: 预填充下的越狱分数。
后缀特定评估
univ_score: 后缀的普遍性分数(即其在所有指令上的平均越狱分数)。suffix_rank: 根据普遍性分数对后缀进行排名。
后缀优化信息
suffix_objective: 用于优化后缀的目标(例如,GCG的目标是affirm)。suffix_optimizer: 使用的优化器(例如,gcg)。suffix_obj_indices: 用于优化后缀的指令ID。suffix_category: 后缀类别(intrdm来自优化的中间步骤,reg是最终的后缀,init是用于初始化的后缀)。is_mult_attack: 后缀是否在多个指令上进行优化。is_trained_message: 后缀是否在配对的指令上进行优化。
引用
如果使用此数据集或相关研究材料,请引用以下论文:
@article{bentov2025universaljailbreaksuffixesstrong, title={{U}niversal {J}ailbreak {S}uffixes {A}re {S}trong {A}ttention {H}ijackers}, author={Matan Ben-Tov and Mor Geva and Mahmood Sharif}, year={2025}, eprint={2506.12880}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2506.12880}, }
搜集汇总
数据集介绍

构建方式
该数据集聚焦于大语言模型的安全评估领域,通过系统化的对抗攻击实验构建而成。研究团队采用梯度引导的字符级对抗攻击方法(GCG),针对Gemma-2、Qwen-2.5和Llama-3.1三种主流指令微调模型生成对抗后缀。数据来源整合了AdvBench基准和StrongReject自定义的有害指令集,每个样本包含原始指令、对抗后缀、模型响应及多维度评估指标,并通过预填充技术对比分析攻击效果。
特点
数据集的核心价值体现在其多维度的评估体系设计。除常规的对抗攻击成功率外,创新性地引入StrongReject分级器的量化评分、响应首词分析、响应类别标注等细粒度指标。特别值得注意的是,该数据集记录了对抗后缀在优化过程中的中间状态(intrdm)和最终状态(reg),并标注了通用性评分和排名,为研究对抗攻击的泛化特性提供了宝贵数据。所有数据均以标准化parquet格式存储,确保高效访问和分析。
使用方法
该数据集主要服务于大语言模型安全研究领域,使用时需严格遵守伦理规范。研究人员可通过加载不同分割子集(gemma2/qwen2.5/llama3.1)进行跨模型对比分析。典型应用场景包括:分析对抗后缀的注意力劫持机制、评估模型防御策略的有效性、研究对抗攻击的迁移性等。使用时应特别注意prefilled__响应字段的对比分析,这有助于理解预填充技术对防御效果的提升作用。所有实验需在受控环境中进行,避免有害内容扩散。
背景与挑战
背景概述
gcg-evaluated-data数据集由Matan Ben-Tov等研究人员于2025年构建,旨在探究通用越狱后缀对大型语言模型的攻击效果。该数据集基于Gemma-2、Qwen-2.5和Llama-3.1等前沿模型,通过对抗性后缀生成技术,系统评估了这些后缀在有害指令下的模型响应行为。其核心研究问题聚焦于揭示越狱后缀如何劫持模型注意力机制,相关成果发表于计算机安全领域重要论文《Universal Jailbreak Suffixes Are Strong Attention Hijackers》,为理解语言模型脆弱性提供了实证基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,需精确量化对抗性后缀的普适性攻击效果,这涉及多模型响应一致性评估与注意力机制解释等复杂问题;在构建技术层面,既要确保对抗性优化的有效性,又要处理有害内容的安全约束。具体难点包括跨模型攻击转移性的测量、强拒绝评分系统的可靠性验证,以及在优化过程中平衡攻击成功率与后缀可解释性之间的张力。
常用场景
经典使用场景
在大型语言模型安全研究领域,gcg-evaluated-data数据集为评估对抗性后缀的通用性和有效性提供了标准化基准。研究人员通过分析Gemma-2、Qwen-2.5和Llama-3.1等主流模型对AdvBench和StrongReject定制指令集的响应,系统性地测量了梯度引导对抗攻击(GCG)生成的恶意后缀在不同模型架构间的迁移能力。该数据集特别适用于研究对抗性提示在跨模型攻击中的传播机制。
实际应用
在网络安全实践领域,该数据集被广泛应用于红队测试和防御系统评估。安全工程师利用其中的对抗性样本测试商业大语言模型的鲁棒性,金融、医疗等敏感行业则基于这些数据开发内容过滤系统。数据集包含的跨模型攻击模式特别有助于构建更全面的防御体系,预防现实中的提示注入攻击。
衍生相关工作
该数据集已催生多个重要研究方向,包括基于注意力机制分析的防御策略开发、对抗性后缀的早期检测技术,以及跨模型安全评估框架构建。其基准测试方法被后续研究如《Attention Firewall》和《Cross-Model Adversarial Defense》直接采用,相关指标已成为衡量模型安全性的重要标准。数据集提供的优化轨迹数据还启发了新型对抗样本生成算法的研究。
以上内容由遇见数据集搜集并总结生成



