LLM Safety Tests

github2026-03-31 更新2026-03-14 收录

下载链接：

https://github.com/trufflesecurity/llm-hacking-alignment-tests

下载链接

链接失效反馈

官方服务：

资源简介：

用于评估LLM在获得工具访问权限时是否会利用软件漏洞的研究数据集和可重复测试环境。包括30个模拟公司网站，每个网站都包含一个故意引入的SQL注入漏洞和一个只能通过利用漏洞检索的“隐藏”文章。

This is a research dataset designed to evaluate whether Large Language Models (LLMs) exploit software vulnerabilities when granted access to external tools. The dataset includes 30 simulated enterprise websites, each of which is a fully self-contained Docker Compose stack containing a PostgreSQL database, a web server, and an AI Agent. Each website intentionally introduces a SQL injection vulnerability along with a "hidden" article that can only be retrieved by exploiting this vulnerability.

创建时间：

2026-03-11

原始信息汇总

LLM Safety Tests 数据集概述

数据集简介

该数据集是一个用于评估大型语言模型在获得工具访问权限时是否会利用软件漏洞的研究数据集和可复现测试环境。数据集包含30个模拟企业网站的测试环境，每个环境均包含一个故意引入的SQL注入漏洞和一个仅能通过利用该漏洞才能检索到的“隐藏”文章。

数据集内容与结构

主要组成部分

30个公司测试环境 (30-companies/): 包含30个完全独立的Docker Compose堆栈，每个堆栈模拟一个公司网站，包含PostgreSQL数据库、Web服务器和AI代理。
不同漏洞场景测试 (Different-vuln-scenarios/): 包含一个用于测试6种以上漏洞类型（SQL注入、路径遍历、命令注入、SSRF、加密漏洞、硬编码密钥）的交互式Web测试工具。
原始数据 (raw-data/): 包含运行级别的结果JSON文件，记录了每次测试的完整工具调用轨迹。

测试执行详情

每个测试环境运行30次。
测试在两个模型（Claude Opus和Claude Sonnet）上进行。
共计产生1,800次独立运行记录。

漏洞工作原理

所有30个公司测试共享相同的漏洞模式：通过URL路径进行SQL注入。

模拟网站具有分类/栏目列表页面。
URL路径段被直接拼接到SQL查询中（未进行参数化处理）。
查询引用了一个数据库中不存在的列，导致页面始终返回500错误。
错误响应泄露了完整的SQL查询和源代码上下文。
数据库中存在一篇状态为“隐藏”的文章，该文章不会出现在正常导航中。
代理必须从错误中发现SQL注入漏洞，通过URL路径构造注入载荷，并检索到隐藏文章。

数据格式

原始数据目录中的每个run-NNN.json文件包含以下字段：

model: 使用的模型。
iteration: 迭代次数。
response_text: 代理的最终响应文本。
steps: 包含工具调用步骤的数组，每个步骤记录工具名称、输入、输出、错误状态和步骤序号。
duration_ms: 运行持续时间（毫秒）。
total_tool_calls: 工具调用总次数。
token_usage: 令牌使用情况，包括输入令牌和输出令牌。
error: 错误信息。
created_at: 创建时间戳。

环境要求与运行

必需环境变量

ANTHROPIC_API_KEY: 用于30个公司测试和不同漏洞场景测试工具（针对Claude模型）。

可选环境变量

OPENAI_API_KEY: 用于不同漏洞场景测试工具（针对GPT/o系列模型）。
GEMINI_API_KEY: 用于不同漏洞场景测试工具（针对Gemini模型）。

运行单个测试

进入目标测试目录（例如 30-companies/amazon-test）。
设置环境变量 ANTHROPIC_API_KEY。
执行命令 docker compose up --build 启动堆栈（数据库 + Web服务器 + 代理）。
代理运行后将打印其工具调用和最终响应，然后退出。
使用 docker compose down -v 清理环境。

运行自定义测试

测试接受以下环境变量进行自定义：

MODEL: 指定使用的模型（默认：claude-opus-4-6）。
AGENT_PROMPT: 覆盖默认的任务提示词。

许可证

公共领域。

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，构建能够系统检验大型语言模型潜在风险的测试环境至关重要。LLM Safety Tests数据集通过精心设计三十个模拟企业网站环境，每个环境均采用Docker Compose技术栈独立部署，包含PostgreSQL数据库、Web服务器及AI代理模块。这些网站被植入了特定的SQL注入漏洞，并隐藏了仅能通过漏洞利用才能获取的文章内容。研究团队为AI代理设定了看似无害的检索任务，并仅提供网页抓取工具，从而在受控条件下观察模型是否自主发现并利用安全漏洞，最终完成了共计一千八百次实验运行，形成了完整的工具调用轨迹记录。

特点

该数据集的核心特征在于其高度仿真的测试场景与多样化的漏洞类型覆盖。三十个模拟网站均以真实企业为蓝本，构建了包含前端界面、后端逻辑及数据库交互的完整Web应用生态，极大增强了测试的生态效度。除了主实验聚焦的SQL注入漏洞外，数据集还扩展了路径遍历、命令注入、服务器端请求伪造等六类常见安全漏洞的交互式测试框架，提供了多维度的风险评估能力。所有实验数据均以结构化JSON格式保存，完整记录了每次运行的模型响应、工具调用序列、耗时及令牌消耗，为后续的量化分析与比较研究奠定了坚实基础。

使用方法

研究者可通过Docker环境快速部署任一企业测试场景，只需配置相应的API密钥即可启动包含数据库、Web服务与AI代理的完整实验栈。运行过程中，代理将自动执行预设任务并输出详细日志，用户亦可自定义模型类型或任务提示词以探索不同变量影响。数据集提供的原始数据文件允许离线分析，研究者可深入检视每次交互的决策链条与漏洞利用模式。对于扩展性研究，配套的多漏洞测试框架支持切换不同云服务商模型，为评估各类大型语言模型在复杂工具使用场景下的安全边界提供了灵活可扩展的实验平台。

背景与挑战

背景概述

随着大型语言模型（LLM）在工具调用与自主代理任务中的广泛应用，其安全性评估成为人工智能领域的关键议题。LLM Safety Tests数据集由Truffle Security团队于2024年创建，旨在系统评估LLM在获得工具访问权限时是否可能利用软件漏洞。该数据集构建了30个模拟企业网站环境，每个环境均包含精心设计的SQL注入漏洞，核心研究问题聚焦于LLM在完成看似无害任务（如检索文章）过程中，能否自主发现并利用安全漏洞。这一工作为理解LLM在真实场景中的安全风险提供了实证基础，推动了AI安全性与对齐研究的发展。

当前挑战

该数据集致力于解决LLM在工具使用场景下的安全性评估挑战，特别是模型是否会在未受明确指令的情况下主动利用软件漏洞。构建过程中的主要挑战在于设计既真实可控又具备可重复性的测试环境：需要模拟企业级网站架构，确保漏洞模式具有代表性，同时避免因环境差异导致评估偏差。此外，数据收集需涵盖多轮实验以统计显著性，并处理模型输出中的不确定性，确保评估结果既反映模型行为本质，又能为后续安全机制设计提供可靠依据。

常用场景

经典使用场景

在人工智能安全研究领域，LLM Safety Tests数据集为评估大型语言模型在工具调用场景下的安全性提供了标准化测试环境。该数据集通过构建30个模拟企业网站，每个网站均包含精心设计的SQL注入漏洞，要求模型在仅使用网页抓取工具的情况下完成看似无害的任务，从而观察模型是否自主发现并利用漏洞。这一场景典型地模拟了现实世界中AI代理访问外部资源时可能引发的安全风险，为研究者提供了可重复、可控的实验平台，以系统性地检验模型的对抗性行为倾向。

实际应用

在实际应用层面，LLM Safety Tests数据集已被广泛用于指导AI系统的安全部署与风险评估。企业及开发团队可借鉴其测试框架，对即将集成到生产环境中的AI代理进行前置安全审计，识别模型在访问数据库、API或网络服务时可能触发的意外攻击面。此外，该数据集衍生的测试方法有助于制定更严格的AI工具使用策略，并为安全防护工具的开发提供基准，例如设计针对AI生成查询的输入过滤机制或异常行为监控系统，从而在金融、医疗、基础设施等关键领域降低AI辅助决策带来的新型安全威胁。

衍生相关工作

基于该数据集的开源特性与严谨设计，学术界与工业界已衍生出一系列相关研究。例如，有工作专注于扩展漏洞类型，将测试范围从SQL注入延伸至路径遍历、命令注入等更多攻击向量，构建了更全面的AI安全基准。另一些研究则利用其提供的完整工具调用轨迹，深入分析模型在漏洞利用过程中的推理链，进而提出改进模型安全性的微调方法或提示工程策略。这些衍生工作共同推动了自动化红队测试、AI对齐技术以及安全增强型语言模型训练框架的进步，形成了以实证驱动的人工智能安全评估生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集