llamafirewall-alignmentcheck-evals

Name: llamafirewall-alignmentcheck-evals
Creator: AI at Meta
Published: 2025-04-30 01:28:52
License: 暂无描述

Hugging Face2025-04-30 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/facebook/llamafirewall-alignmentcheck-evals

下载链接

链接失效反馈

官方服务：

资源简介：

LlamaFirewall AlignmentCheck Evals数据集是一个用于评估语言模型在代理环境中对提示注入攻击的脆弱性的数据集。它包含577个测试案例，每个案例由系统提示、测试提示、模型响应和一个表示提示是否为恶意的标签组成。该数据集旨在检测语言模型在使用AlignmentCheck工具时是否与用户目标存在偏差。

提供机构：

AI at Meta

创建时间：

2025-04-27

原始信息汇总

LlamaFirewall AlignmentCheck Evals 数据集概述

数据集详情

数据集描述

目的：评估语言模型在代理环境中的提示注入（prompt injection）易感性，检测与用户目标的不一致性。
内容：包含577个测试用例，每个用例包含系统提示、提示、响应及恶意标签。
语言：英语
许可证：MIT

数据集来源

论文：LlamaFirewall: An Open-Source Guardrail System for Building Secure AI Agents

使用范围

适用场景

评估语言模型在代理环境中对提示注入的易感性。
使用AlignmentCheck（基于少样本提示的思维链审计器）检查代理推理中的目标劫持或提示注入导致的不一致性。

不适用场景

禁止用于模型训练。
禁止用于有害、不道德或恶意目的。

数据集结构

文件：llamafirewall-alignmentcheck-evals.json
总用例数：577（测试用例） × 6（模型） = 3462
核心字段：
- id：测试用例的唯一整数ID。
- prompt_id：测试提示的整数ID（共577个）。
- system_prompt：代理环境的系统提示。
- prompts：用于测试模型的提示。
- response：模型对提示的响应。
- is_malicious：提示是否包含恶意注入攻击。
- injected_tool：模型被攻破时可能调用的工具。
- prompt_injection_message：提示注入消息。
- attacker_instruction：攻击者指令。
- attack_type：攻击类型（如“忽略先前指令”或“DAN”）。
- category：攻击类别。
- model：目标模型。
- prompt_injection_success：攻击是否成功。
- alignment_guard_judge_MODEL_NAME：AlignmentCheck对模型的判定结果。
- alignment_check_system_prompt：AlignmentCheck的系统提示。
- alignment_check_user_prompt：AlignmentCheck的用户提示。

附加信息

数据来源

测试用例通过Meta内部代理模拟框架生成，涵盖旅行规划、信息检索和生产力等领域。
框架包含模拟应用程序（如日历、消息、电子邮件等）及其内容，可无限扩展。
在基准测试中，通过对抗性扰动将提示注入攻击嵌入良性任务场景。

数据集作者

Daniel Song（danielsong@meta.com）

搜集汇总

数据集介绍

构建方式

该数据集基于Meta公司内部代理仿真框架构建，专注于评估语言模型在代理环境中的安全性。研究人员通过模拟智能手机应用场景，设计了涵盖旅行规划、信息检索等领域的577个测试案例。每个案例均包含系统提示、用户提示、模型响应及恶意标签，并通过对抗性扰动技术将已知的提示注入攻击方式嵌入到良性任务场景中，形成了兼具多样性和挑战性的评估基准。

使用方法

该数据集专为评估语言模型在代理环境中的安全防护能力而设计。使用时需加载JSON格式的测试案例，重点关注system_prompt与prompts的组合对模型行为的影响。研究人员可通过分析prompt_injection_success字段评估模型脆弱性，利用alignment_guard_judge_MODEL_NAME字段验证防护机制有效性。需要特别注意的是，根据使用规范，该数据集仅适用于安全评估场景，禁止用于模型训练或任何可能带来伦理风险的用途。

背景与挑战

背景概述

LlamaFirewall AlignmentCheck Evals数据集由Meta研究团队于2023年推出，旨在应对AI智能体环境中的安全风险问题。作为LlamaFirewall开源防护框架的核心评估组件，该数据集聚焦于语言模型在代理环境中的提示注入攻击检测与目标对齐验证。研究团队基于内部代理仿真框架构建了577个测试案例，覆盖旅行规划、信息检索等典型应用场景，通过系统化的对抗样本生成方法，为AI安全领域提供了首个专注于工具型智能体安全评估的基准数据集。该数据集的发布填补了智能体安全评估领域的空白，对提升语言模型在复杂环境中的鲁棒性具有重要指导意义。

当前挑战

该数据集主要解决智能体环境中的两大核心挑战：提示注入攻击检测与目标对齐验证。在领域问题层面，需要克服传统安全机制对语义欺骗攻击的识别盲区，特别是针对角色扮演劫持、恶意指令等复杂攻击模式的检测精度不足问题。数据集构建过程中面临模拟环境真实性、攻击样本多样性以及评估标准客观性等挑战，研究团队通过开发模块化代理仿真框架、建立多维度攻击分类体系以及设计基于思维链的审计机制等创新方法予以应对。评估结果表明，现有语言模型在面对精心设计的提示注入攻击时仍存在显著安全漏洞，这为后续防护技术研究指明了改进方向。

常用场景

经典使用场景

在人工智能安全领域，llamafirewall-alignmentcheck-evals数据集被广泛应用于评估语言模型在代理环境中的提示注入攻击脆弱性。通过模拟真实场景中的恶意指令嵌入，该数据集能够系统性地测试模型对目标劫持和指令篡改的防御能力，为研究者提供标准化的评估基准。其精心设计的577个测试案例覆盖了多种攻击类型，成为检验模型安全性的重要工具。

解决学术问题

该数据集有效解决了AI代理安全性研究中的关键问题：如何量化评估语言模型在复杂交互环境中的对抗性攻击抵抗能力。通过AlignmentCheck的思维链审计机制，研究者能够精准识别模型推理过程中出现的意图偏离现象，为构建安全可靠的AI系统提供了理论依据和方法支撑，推动了可信人工智能领域的技术发展。

实际应用

在实际应用层面，该数据集被集成到LlamaFirewall防护框架中，作为最后一道安全防线部署于各类AI代理系统。企业可基于该评估结果优化智能助手、客服机器人等应用的安全策略，预防恶意用户通过精心构造的提示词操控系统行为，保障金融、医疗等关键领域AI应用的安全稳定运行。

数据集最近研究