gcg-evaluated-data

Hugging Face2025-06-18 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/MatanBT/gcg-evaluated-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Gemma-2、Qwen-2.5和Llama-3.1模型生成的对抗性后缀，用于评估这些后缀在恶意指令下的响应。数据集包含每一行的详细信息，如指令ID、指令内容、来源、对抗性后缀、后缀与指令拼接的结果、响应及其评估、在预填充下的响应及其评估、后缀特定评估和后缀优化信息。该数据集用于研究，并包含有害内容，仅限研究目的使用。

创建时间：

2025-06-15

原始信息汇总

数据集概述

基本信息

许可证: MIT
数据集地址: https://huggingface.co/datasets/MatanBT/gcg-evaluated-data
相关论文: Universal Jailbreak Suffixes Are Strong Attention Hijackers (论文, 代码)

数据集配置

配置名称: default
数据文件:
- gemma2: gemma-2-2b-it_eval_data.parquet
- qwen2.5: qwen2.5-1.5b-instruct_eval_data.parquet
- llama3.1: llama-3.1-8b-instruct_eval_data.parquet

数据集内容

描述: 该数据集包含针对Gemma-2、Qwen-2.5和Llama-3.1模型生成的对抗性后缀，这些后缀附加在有害指令（来自AdvBench和StrongReject的自定义子集）上，并记录了生成的响应及其评估和特征。
警告: 该数据集包含有害内容，仅用于研究目的。

数据字段说明

有害指令信息

message_id: 指令的唯一标识符。
message_str: 指令的字符串。
message_source: 指令的来源数据集（来自AdvBench或StrongReject的自定义子集）。

对抗性后缀信息

suffix_id: 后缀的唯一标识符。
suffix_str: 后缀的字符串（通常约20个令牌长）。
message_suffixed: 指令与后缀的连接字符串。

响应及其评估

response: 响应的字符串。
strongreject_finetuned: 由StrongReject的评分器给出的越狱分数（越高越有害）。
response_first_tok: 响应的第一个令牌。
response_category: 响应的类别（根据其成功和响应前缀的特征）。

预填充下的响应及其评估

prefilled__response: 预填充下的响应字符串。
prefilled__strongreject_finetuned: 预填充下的越狱分数。

后缀特定评估

univ_score: 后缀的普遍性分数（即其在所有指令上的平均越狱分数）。
suffix_rank: 根据普遍性分数对后缀进行排名。

后缀优化信息

suffix_objective: 用于优化后缀的目标（例如，GCG的目标是affirm）。
suffix_optimizer: 使用的优化器（例如，gcg）。
suffix_obj_indices: 用于优化后缀的指令ID。
suffix_category: 后缀类别（intrdm来自优化的中间步骤，reg是最终的后缀，init是用于初始化的后缀）。
is_mult_attack: 后缀是否在多个指令上进行优化。
is_trained_message: 后缀是否在配对的指令上进行优化。

引用

如果使用此数据集或相关研究材料，请引用以下论文：

@article{bentov2025universaljailbreaksuffixesstrong, title={{U}niversal {J}ailbreak {S}uffixes {A}re {S}trong {A}ttention {H}ijackers}, author={Matan Ben-Tov and Mor Geva and Mahmood Sharif}, year={2025}, eprint={2506.12880}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2506.12880}, }

搜集汇总

数据集介绍

构建方式

该数据集聚焦于大语言模型的安全评估领域，通过系统化的对抗攻击实验构建而成。研究团队采用梯度引导的字符级对抗攻击方法（GCG），针对Gemma-2、Qwen-2.5和Llama-3.1三种主流指令微调模型生成对抗后缀。数据来源整合了AdvBench基准和StrongReject自定义的有害指令集，每个样本包含原始指令、对抗后缀、模型响应及多维度评估指标，并通过预填充技术对比分析攻击效果。

特点

数据集的核心价值体现在其多维度的评估体系设计。除常规的对抗攻击成功率外，创新性地引入StrongReject分级器的量化评分、响应首词分析、响应类别标注等细粒度指标。特别值得注意的是，该数据集记录了对抗后缀在优化过程中的中间状态（intrdm）和最终状态（reg），并标注了通用性评分和排名，为研究对抗攻击的泛化特性提供了宝贵数据。所有数据均以标准化parquet格式存储，确保高效访问和分析。

使用方法

该数据集主要服务于大语言模型安全研究领域，使用时需严格遵守伦理规范。研究人员可通过加载不同分割子集（gemma2/qwen2.5/llama3.1）进行跨模型对比分析。典型应用场景包括：分析对抗后缀的注意力劫持机制、评估模型防御策略的有效性、研究对抗攻击的迁移性等。使用时应特别注意prefilled__响应字段的对比分析，这有助于理解预填充技术对防御效果的提升作用。所有实验需在受控环境中进行，避免有害内容扩散。

背景与挑战

背景概述

gcg-evaluated-data数据集由Matan Ben-Tov等研究人员于2025年构建，旨在探究通用越狱后缀对大型语言模型的攻击效果。该数据集基于Gemma-2、Qwen-2.5和Llama-3.1等前沿模型，通过对抗性后缀生成技术，系统评估了这些后缀在有害指令下的模型响应行为。其核心研究问题聚焦于揭示越狱后缀如何劫持模型注意力机制，相关成果发表于计算机安全领域重要论文《Universal Jailbreak Suffixes Are Strong Attention Hijackers》，为理解语言模型脆弱性提供了实证基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，需精确量化对抗性后缀的普适性攻击效果，这涉及多模型响应一致性评估与注意力机制解释等复杂问题；在构建技术层面，既要确保对抗性优化的有效性，又要处理有害内容的安全约束。具体难点包括跨模型攻击转移性的测量、强拒绝评分系统的可靠性验证，以及在优化过程中平衡攻击成功率与后缀可解释性之间的张力。

常用场景

经典使用场景

在大型语言模型安全研究领域，gcg-evaluated-data数据集为评估对抗性后缀的通用性和有效性提供了标准化基准。研究人员通过分析Gemma-2、Qwen-2.5和Llama-3.1等主流模型对AdvBench和StrongReject定制指令集的响应，系统性地测量了梯度引导对抗攻击（GCG）生成的恶意后缀在不同模型架构间的迁移能力。该数据集特别适用于研究对抗性提示在跨模型攻击中的传播机制。

实际应用

在网络安全实践领域，该数据集被广泛应用于红队测试和防御系统评估。安全工程师利用其中的对抗性样本测试商业大语言模型的鲁棒性，金融、医疗等敏感行业则基于这些数据开发内容过滤系统。数据集包含的跨模型攻击模式特别有助于构建更全面的防御体系，预防现实中的提示注入攻击。

衍生相关工作

该数据集已催生多个重要研究方向，包括基于注意力机制分析的防御策略开发、对抗性后缀的早期检测技术，以及跨模型安全评估框架构建。其基准测试方法被后续研究如《Attention Firewall》和《Cross-Model Adversarial Defense》直接采用，相关指标已成为衡量模型安全性的重要标准。数据集提供的优化轨迹数据还启发了新型对抗样本生成算法的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集