cyberseceval3-visual-prompt-injection

Name: cyberseceval3-visual-prompt-injection
Creator: AI at Meta
Published: 2025-03-13 10:15:08
License: 暂无描述

Hugging Face2025-03-13 更新2025-03-14 收录

下载链接：

https://huggingface.co/datasets/facebook/cyberseceval3-visual-prompt-injection

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估大型语言模型在处理文本和图像输入时面对视觉提示注入安全风险的数据集。包含1000个合成测试案例，每个案例包括系统提示、用户输入文本和评审问题，并提供有关图像和注入技术的元数据。

This is a dataset for evaluating the security risks of visual prompt injection that large language models (LLMs) encounter when processing both text and image inputs. It contains 1,000 synthetic test cases, each of which includes a system prompt, user input text, and a review question, alongside metadata related to the images and the employed injection techniques.

提供机构：

AI at Meta

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

CyberSecEval 3 - Visual Prompt Injection Benchmark 数据集构建于合成数据之上，旨在评估大型语言模型在面对文本与图像输入时对prompt injection攻击的脆弱性。该数据集包含了1000个测试案例，每个案例均由系统提示、用户输入文本、评判问题以及对应的图像构成，合成数据使用了Llama-3.1-405B-Instruct模型，并辅以Meta AI的图像生成技术，部分案例中的图像来源于公开的CAPTCHA数据集。

特点

该数据集的特点在于其专注于多模态prompt injection的评估，不仅包含文本输入，还结合了图像输入，从而全面考察模型在真实世界场景下的安全性。数据集遵循MIT许可，并采用标签化的元数据结构，提供了关于图像描述、图像文本、攻击技术类型、攻击类型以及风险类别的详细信息，以便于研究人员对模型的安全性进行深入分析。

使用方法

使用该数据集时，研究人员可通过CyberSecEval的benchmark runner或Inspect AI框架来执行评估。数据集不应用于模型训练，而仅用于评估目的。用户在使用数据集时需遵守使用范围，避免将数据集用于有害、不道德或恶意用途。

背景与挑战

背景概述

CyberSecEval 3 - Visual Prompt Injection Benchmark 数据集是由Meta公司的研究团队于2024年创建的，旨在针对大型语言模型（LLM）在安全领域的风险和能力的评估。该数据集的创建是为了填补现有评估在视觉提示注入方面的空白，特别是在多模态输入情况下的安全性评估。作为一种安全评估工具，CyberSecEval 3专门设计用于评估语言模型在接收文本和图像输入时对提示注入攻击的脆弱性，这对于理解和提高LLM的安全性具有重要意义。

当前挑战

该数据集面临的挑战主要在于其应用的特定性和数据集构建过程中的技术难题。首先，它专注于一个相对较新的领域问题，即多模态提示注入攻击的评估，这要求评估方法不仅要考虑文本，还要考虑图像输入。其次，构建过程中遇到的挑战包括合成数据的代表性、评估标准的准确性以及数据集规模的局限性。此外，由于数据集是合成的，其泛化能力可能有限，且未经过人工复核的样本可能存在错误。最后，数据集的判断依赖于另一个LLM，其结果可能受到模型概率性响应的影响。

常用场景

经典使用场景

在人工智能安全领域，尤其是大型语言模型的安全性评估中，CyberSecEval 3 - Visual Prompt Injection Benchmark数据集提供了一个多模态的基准，用于评估模型在面对文本和图像输入时对prompt injection攻击的脆弱性。该数据集通过精心设计的测试用例，旨在检测和量化模型在处理视觉提示注入时的安全性。

衍生相关工作

基于CyberSecEval 3数据集的研究已经衍生出一系列相关工作，包括对prompt injection攻击技术的深入分析，以及针对不同类型模型的安全评估方法的探索。这些工作进一步扩展了我们在理解和防御prompt injection攻击方面的知识库，为构建更加安全的AI系统提供了理论支持和实践指导。

数据集最近研究