EVMbench
收藏arXiv2026-03-11 更新2026-03-13 收录
下载链接:
https://github.com/blocksecteam/ReEVMBench/
下载链接
链接失效反馈官方服务:
资源简介:
EVMbench是由OpenAI、Paradigm和OtterSec联合发布的首个智能合约安全领域的大规模AI代理基准测试数据集,包含来自40个Code4rena审计仓库的120个精选漏洞样本。该数据集通过隔离的Docker环境评估代理在漏洞检测、修复和利用三方面的能力,其核心价值在于为自动化AI审计提供标准化测试框架。数据来源主要为2025年8月前的历史审计竞赛报告,可能存在模型训练数据污染风险。研究团队额外构建了包含22个2026年2月后真实安全事件的纯净子集,以验证模型在真实场景中的泛化能力。该数据集主要应用于区块链安全领域,旨在评估AI代理在智能合约漏洞挖掘方面的有效性,推动自动化审计技术的发展。
EVMbench is the first large-scale AI Agent benchmark dataset in the field of smart contract security, jointly released by OpenAI, Paradigm and OtterSec. It contains 120 curated vulnerability samples from 40 Code4rena audit repositories. This dataset evaluates AI Agents' capabilities across three core aspects: vulnerability detection, repair and exploitation, via isolated Docker environments. Its core value lies in providing a standardized testing framework for automated AI-powered auditing. The dataset is primarily sourced from historical audit contest reports prior to August 2025, which may carry the risk of training data contamination for AI models. The research team additionally constructed a clean subset containing 22 real-world security incidents that occurred after February 2026, to validate the generalization ability of models in real-world scenarios. This dataset is mainly applied in the field of blockchain security, aiming to evaluate the effectiveness of AI Agents in smart contract vulnerability mining and promote the development of automated auditing technologies.
提供机构:
浙江大学; BlockSec
创建时间:
2026-03-11
搜集汇总
数据集介绍
构建方式
在智能合约安全评估领域,EVMbench作为首个面向AI代理的大规模基准测试,其构建过程体现了严谨的工程化设计。该数据集从40个Code4rena审计竞赛仓库中精心筛选出120个经过验证的漏洞案例,涵盖检测、修复与利用三大任务维度。每个任务均在隔离的Docker容器环境中执行,通过RPC端点与本地以太坊实例交互,确保评估过程的可复现性与数据安全性。数据采集严格遵循实际审计场景,将生产级智能合约代码与真实漏洞模式相结合,为AI代理的能力评估提供了标准化测试平台。
特点
EVMbench的核心特征在于其多维度的评估体系与真实场景的深度融合。数据集不仅包含经典的代码漏洞模式,还引入了链上状态验证机制,要求代理在模拟生产环境中完成端到端的漏洞利用。特别值得注意的是,该基准测试采用模型驱动的检测评分器,通过自然语言理解能力判断漏洞报告的准确性,这种设计突破了传统静态分析工具的局限性。同时,数据集通过时间窗口控制与训练数据隔离策略,有效区分了模型的记忆能力与泛化能力,为评估AI代理的真实安全分析水平提供了科学依据。
使用方法
使用EVMbench进行智能合约安全评估时,研究者可通过其开源基础设施系统性地测试不同AI代理的安防能力。评估流程分为三个标准化阶段:在检测任务中,代理需对代码库进行审计并生成漏洞报告,由基于模型的评分器对照真实漏洞进行召回率评估;在修复任务中,代理需要修改代码以消除漏洞,并通过测试驱动的验证机制检验修复效果;在利用任务中,代理需在隔离的区块链环境中构造攻击交易,通过链上状态变化验证漏洞利用的成功与否。这种分层评估方法使得研究者能够精确量化代理在不同安全任务中的表现差异,为智能合约安全工具的演进提供可靠基准。
背景与挑战
背景概述
EVMbench作为首个面向智能合约安全领域的大规模AI智能体基准测试,由OpenAI、Paradigm与OtterSec于2026年2月联合发布,旨在系统评估AI智能体在漏洞检测、修复与利用三个维度的综合能力。该数据集基于40个Code4rena审计仓库中的120个精选漏洞构建,其初期结果显示智能体最高可检测45.6%的漏洞并成功利用72.2%的精选子集,一度引发行业对全自动AI审计时代即将到来的广泛预期。该基准的推出标志着区块链安全评估从传统人工审计向智能化、规模化测试范式的重要转型,为后续研究提供了可复现的实验框架与标准化评估体系。
当前挑战
EVMbench面临的核心挑战主要体现在评估效度与泛化能力两个层面。在领域问题层面,智能体在真实世界安全事件中的表现与基准测试结果存在显著差距:尽管在精选审计数据上展现出较高漏洞检测率,但在22个训练数据污染为零的真实安全事件中,所有智能体均未能完成端到端漏洞利用,暴露出其在复杂协议交互、多步骤攻击链构建等实战场景中的能力局限。在构建过程层面,基准设计存在评估范围狭窄与数据时效性不足的双重挑战:初始实验仅涵盖14种智能体配置且多数模型仅测试其供应商提供的脚手架工具,未能有效控制脚手架选择对结果的影响;同时基准依赖的审计竞赛数据早于多数模型发布时间,存在训练数据污染风险,可能高估模型的实际泛化能力。
常用场景
经典使用场景
在区块链安全领域,EVMbench作为首个针对智能合约安全的大规模AI代理基准测试,其经典使用场景聚焦于系统评估前沿AI模型在漏洞检测、修复与利用三个核心任务上的综合表现。该数据集通过构建包含120个漏洞的40个Code4rena审计仓库,模拟真实审计环境,为研究者提供了标准化测试框架。评估过程中,AI代理需在隔离的Docker容器内执行任务,确保结果可复现且无数据泄露风险,从而精准衡量模型在智能合约安全分析中的实际能力边界。
实际应用
在实际应用层面,EVMbench为开发者和审计机构提供了明确的实践指引。对于开发者,AI代理扫描可作为部署前的有效辅助检查,识别缺失访问控制、重入攻击等常见漏洞模式。对于专业审计公司,数据集评估结果表明,AI代理最适合作为人机协同工作流中的初筛工具,由AI处理代码审查的广度,人类审计师则贡献协议特定知识、对抗性推理及误报过滤。这种协同模式已在安全实践中显现价值,将AI转化为提升审计效率的增效器。
衍生相关工作
EVMbench的发布催生了系列延伸研究,其中Re-Evaluating EVMBench工作通过扩展代理配置至26种并引入22个真实安全事件数据集,系统揭示了模型排名不稳定性、脚手架选择影响等重要现象。该研究进一步推动了SCONE-Bench、BountyBench等安全基准测试的发展,并与SWE-bench、OpenHands等通用软件工程代理研究形成交叉。这些衍生工作共同深化了对AI代理在安全领域能力边界与评估方法论的理解,促进了更稳健的基准测试体系建设。
以上内容由遇见数据集搜集并总结生成



