Adversarial Nibbler Dataset

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/adversarial-nibbler

下载链接

链接失效反馈

官方服务：

资源简介：

随着文本到图像（T2I）生成AI模型的兴起，评估模型对非明显攻击的鲁棒性以减少生成攻击性图像至关重要。通过关注“隐含对抗性”提示（那些触发T2I模型生成不安全图像的非明显原因），我们隔离了一组困难的安全问题，这些问题适合人类创造力来发现。为此，我们构建了[Adversarial Nibbler Challenge](https://dynabench.org/tasks/adversarial-nibbler)，这是一种[红队方法论](https://arxiv.org/abs/2403.12075)，用于众包一组多样化的隐含对抗性提示。挑战在[MLCommons竞赛空间](https://dynabench.org/tasks)上举办。

With the rise of text-to-image (T2I) generative AI models, it is crucial to evaluate the robustness of these models against non-obvious attacks to reduce the generation of offensive images. By focusing on 'implicit adversarial' prompts—those non-obvious triggers that cause T2I models to generate unsafe images—we have isolated a set of challenging safety issues that are suitable for human creativity to uncover. To this end, we have constructed the [Adversarial Nibbler Challenge](https://dynabench.org/tasks/adversarial-nibbler), a [red team methodology](https://arxiv.org/abs/2403.12075) designed to crowdsource a diverse set of implicit adversarial prompts. The challenge is hosted on the [MLCommons competition platform](https://dynabench.org/tasks).

创建时间：

2024-04-26

原始信息汇总

数据集概述

数据集名称

Adversarial Nibbler Dataset

数据集目的

评估文本到图像生成AI模型的鲁棒性，特别是针对非明显攻击，以防止生成攻击性图像。

数据集内容

Attempted Prompts: 所有提交至Dynabench以生成图像的提示。
Submitted Prompts: 安全提示与不安全图像对，由挑战参与者提交，并经过众包验证。

数据集结构

数据分割: 分为dev、train、test三个部分。
文件格式: JSON和CSV。
- JSON: 包含所有数据，提供示例查询以辅助解析。
- CSV: 仅包含每个数据集的提示。

数据集架构

Attempted Prompts Schema:
- Column Name: hashed_filename, timestamp, model, submitter_id, prompt, submitted
Submitted Prompts Schema:
- Column Name: timestamp, submitted_prompt, hashed_filename, submission_annotations, validation

数据集警告

本数据集包含可能具有攻击性的对抗性示例。

数据集报告

Round 1 Data Report: 提供每轮预期的行数和集合大小。
Round 2 and 3 Data Report: 提供每轮预期的行数和集合大小。

数据访问

访问所有生成的图像需填写数据访问和使用理由的表格。
访问保留的测试集需填写数据访问和使用理由的表格。

数据集许可证

本数据集根据Creative Commons Attribution 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

Adversarial Nibbler Dataset的构建基于对抗性提示的众包挑战，旨在通过‘隐式对抗’提示来评估文本到图像生成模型的鲁棒性。该数据集通过众包方式收集了大量隐式对抗性提示，并将其分为‘尝试’和‘提交’两类数据。每类数据进一步细分为开发、训练和测试集，确保数据集的多样性和广泛性。数据验证过程包括机器和人工双重验证，确保数据的质量和可靠性。

特点

该数据集的主要特点在于其对抗性和多样性。通过众包方式收集的隐式对抗性提示，能够有效揭示模型在处理非显性攻击时的脆弱性。数据集包含详细的元数据，如时间戳、模型信息、提交者ID等，便于深入分析。此外，数据集提供了JSON和CSV两种格式，便于不同需求的用户进行数据处理和分析。

使用方法

用户可以通过加载JSON或CSV文件来访问数据集，并使用提供的示例查询进行数据解析。数据集的结构化设计使得用户能够轻松提取和分析特定信息，如特定图像/提示对的验证结果或所有唯一提示的列表。此外，用户可以通过填写相关表格申请访问所有生成的图像或 withheld 测试集，进一步扩展数据集的使用范围。

背景与挑战

背景概述

随着文本到图像（T2I）生成式AI模型的兴起，评估模型在面对非显性攻击时的鲁棒性变得至关重要，以减少生成有害图像的风险。Adversarial Nibbler Dataset由一群研究人员和机构创建，旨在通过聚焦于‘隐式对抗’提示（即那些不明显但能触发T2I模型生成不安全图像的提示），揭示模型在安全性方面的潜在问题。该数据集是Adversarial Nibbler Challenge的结果，这是一个基于众包的‘红队测试’方法，用于收集多样化的隐式对抗提示。该挑战由MLCommons主办，旨在通过众包方式发现和验证这些隐式对抗提示，从而提高T2I模型的安全性。

当前挑战

Adversarial Nibbler Dataset面临的主要挑战包括：1）识别和分类隐式对抗提示，这些提示通常难以被常规的安全检测机制发现；2）通过众包方式确保数据集的多样性和代表性，这需要复杂的验证和标注流程；3）处理和分析大量生成的图像和提示数据，以评估模型的鲁棒性和安全性。此外，数据集中包含的可能具有攻击性或不安全的内容，也增加了数据处理的复杂性和敏感性，要求在数据发布和使用时采取严格的伦理和安全措施。

常用场景

经典使用场景

Adversarial Nibbler Dataset 主要用于评估文本到图像生成模型在面对隐式对抗性提示时的鲁棒性。通过分析模型在处理这些提示时生成的图像，研究者可以识别出模型在安全性方面的潜在漏洞。这种数据集的经典使用场景包括但不限于：检测模型在处理模糊或隐含攻击性文本时的表现，评估模型对不同类型攻击的敏感性，以及开发更强大的安全过滤机制。

实际应用

在实际应用中，Adversarial Nibbler Dataset 可用于训练和验证安全过滤器，确保文本到图像生成模型在面对潜在攻击性提示时能够生成安全的图像。此外，该数据集还可用于开发和测试新的对抗性攻击检测算法，帮助企业和服务提供商提升其生成式AI系统的安全性。通过这些应用，该数据集在保障公众免受有害内容侵害方面发挥了重要作用。

衍生相关工作

基于 Adversarial Nibbler Dataset，研究者们开发了多种对抗性攻击检测和防御机制。例如，一些研究工作专注于改进现有的文本安全分类模型，使其能够更准确地识别隐式对抗性提示。此外，还有研究提出了新的红队测试方法，以更全面地评估生成模型的安全性。这些衍生工作不仅丰富了人工智能安全领域的研究，还为实际应用中的安全问题提供了有效的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集