RAS-Eval
收藏arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://github.com/lanzer-tree/RAS-Eval
下载链接
链接失效反馈官方服务:
资源简介:
RAS-Eval是一个全面的基准测试,用于评估大型语言模型(LLM)代理在现实世界环境中的安全性。该数据集由浙江大学创建,包含80个测试案例和3802个攻击任务,映射到11个通用弱点枚举(CWE)类别,并支持JSON、LangGraph和模型上下文协议(MCP)格式。数据集旨在解决LLM代理在实际应用中可能存在的安全漏洞问题,并为未来的安全研究提供基础框架。
RAS-Eval is a comprehensive benchmark designed to assess the safety of large language model (LLM) agents in real-world environments. Developed by Zhejiang University, this dataset comprises 80 test cases and 3802 attack tasks, which are mapped to 11 Common Weakness Enumeration (CWE) categories, and supports JSON, LangGraph and Model Context Protocol (MCP) formats. This benchmark aims to address potential security vulnerabilities of LLM agents in real-world applications, and provides a foundational framework for future security research.
提供机构:
浙江大学
创建时间:
2025-06-18
原始信息汇总
RAS-Eval 数据集概述
1. 数据集简介
- 名称:RAS-Eval
- 描述:一个用于评估动态和真实环境中LLM代理安全性的综合基准
- 许可证:MIT
- 论文:arXiv论文链接(https://arxiv.org/abs/2506.15253)
2. 快速开始
2.1 安装
- 需要安装
uv工具 - 安装依赖命令:
uv sync - 创建环境文件:
touch .env
2.2 申请LLM API密钥
- 支持的LLM提供商及模型:
- aliyun:
qwen-max,qwen-plus,qwen-turbo,qwen2.5-xb-instruct - ollama:
llama3.3-70b,llama3.2-3b,llama3.2-1b,llama3.1-8b,qwen2.5-0.5b,qwen2.5-1.5b,qwen2.5-3b,qwen2.5-7b,qwen2.5-14b,qwen2.5-32b,qwen2.5-72b - zhipu:
glm-4-plus,glm-4-flash
- aliyun:
- 申请地址:
- aliyun:https://bailian.console.aliyun.com/
- ollama:https://ollama.com/search?c=tools
- zhipu:https://www.bigmodel.cn/
2.3 申请真实工具API密钥
- 支持的工具及申请地址:
- BaiduMap:
BAIDU_MAP_AK(https://lbsyun.baidu.com/) - Tushare:
TUSHARE_TOKEN(https://tushare.pro/) - Tavily:
TAVILY_API_KEY(https://tavily.com/) - OpenWeatherMap:
OPENWEATHERMAP_API_KEY(https://openweathermap.org/)
- BaiduMap:
2.4 测试
- 运行命令:
uv run main.py
搜集汇总
数据集介绍

构建方式
RAS-Eval数据集构建于动态开放的现实环境中,采用多模态工具执行框架,涵盖JSON、LangGraph和Model Context Protocol (MCP)三种格式。通过系统化收集真实API和开源工具,数据集整合了75个实际工具与模拟执行环境,并基于规则生成器实现Python脚本到多格式的自动化转换。测试案例采用JSON结构化设计,包含80个基准任务和3,802个攻击任务,所有攻击模式均映射至11类CWE漏洞标准,并通过数据增强技术扩展攻击场景覆盖范围。
特点
该数据集的核心特征体现在三方面:生态效度方面,工具调用频率分布与实际应用场景高度吻合,7类典型场景覆盖医疗、金融等关键领域;安全评估维度上,首创32种原子/复合故障模式分类体系,支持对工具调用序列、运行时错误等细粒度漏洞分析;技术兼容性层面,同时支持真实API执行与内存模拟两种模式,完整复现网络延迟、权限认证等现实环境变量。特别设计的任务复杂度呈负偏态分布,其中1-3个工具调用的场景占比达63.96%,符合实际部署的典型工作负载特征。
使用方法
使用该数据集需遵循标准化评估协议:首先配置MCP服务器或LangGraph环境,加载对应场景的代理脚本。针对安全测试,可选择注入工具输入参数(tool_input模式)或篡改输出结果(tool_output模式),系统自动记录任务完成率(TCR)、攻击成功率(ASR)等指标。研究型应用建议结合故障模式分类体系进行根因分析,实践部署则推荐优先验证CWE-77命令注入、CWE-89 SQL注入等高危漏洞。数据集提供自动化评估管道,支持对工具调用序列的包含性检查(⊆)和攻击目标匹配验证(⊨)等谓词逻辑运算。
背景与挑战
背景概述
RAS-Eval数据集由浙江大学的研究团队于2025年提出,旨在解决大型语言模型(LLM)代理在现实环境中的安全评估问题。随着LLM代理在医疗、金融等关键领域的广泛应用,其安全性和可靠性成为亟待解决的核心问题。该数据集包含80个测试案例和3,802个攻击任务,覆盖11种常见弱点枚举(CWE)类别,支持JSON、LangGraph和MCP等多种工具格式。RAS-Eval的提出填补了现有基准测试在真实环境执行支持方面的空白,为LLM代理的安全研究提供了标准化评估框架。
当前挑战
RAS-Eval数据集面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,LLM代理在动态开放环境中的安全评估涉及复杂的工具调用、权限认证和数据传输等问题,这些问题在模拟环境中难以完全复现。构建过程中,研究人员需解决真实工具与模拟工具的兼容性问题,确保攻击任务能有效覆盖多种漏洞类型。此外,数据集的扩展性、攻击任务的多样性和评估指标的客观性也是构建过程中的重要挑战。
常用场景
经典使用场景
在大型语言模型(LLM)代理的快速部署背景下,RAS-Eval数据集被广泛应用于评估动态开放环境中的代理安全性。该数据集通过模拟和真实工具执行的结合,为研究人员提供了一个标准化平台,用于测试代理在面对多样化攻击时的表现。特别是在医疗和金融等关键领域,RAS-Eval的测试案例和攻击任务能够全面覆盖11种常见弱点枚举(CWE)类别,从而确保评估的全面性和可靠性。
衍生相关工作
RAS-Eval数据集衍生了一系列相关研究,包括基于其测试案例的扩展攻击任务设计和新型防御机制的开发。例如,一些研究利用该数据集的漏洞分类系统(如CWE-77和CWE-89)提出了针对特定攻击的检测算法。此外,数据集的开放性和标准化格式也促进了跨团队合作,推动了LLM代理安全评估领域的整体进步。
数据集最近研究
最新研究方向
随着大语言模型(LLM)代理在医疗、金融等关键领域的广泛应用,其安全性问题日益凸显。RAS-Eval作为首个支持真实环境工具执行的安全评估基准,通过80个测试案例和3,802个攻击任务,全面覆盖11种CWE漏洞类型,为LLM代理的安全研究提供了重要工具。该数据集的最新研究方向聚焦于动态开放环境下的多模态安全评估,特别是在JSON、LangGraph和MCP等多种工具格式下的安全性能测试。研究发现,攻击可使代理任务完成率平均下降36.78%,学术场景下攻击成功率高达85.65%,揭示了LLM代理在真实部署中的严重安全隐患。这一研究不仅填补了现有模拟环境评估的不足,更为构建可信赖的LLM代理系统奠定了理论基础和实践框架。
相关研究论文
- 1RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents in Real-World Environments浙江大学 · 2025年
以上内容由遇见数据集搜集并总结生成



