Re-Evaluating EVMBench

github2026-03-15 更新2026-03-22 收录

下载链接：

https://github.com/blocksecteam/ReEVMBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?》的研究，包含评估数据和支持脚本。

本数据集用于支撑论文《重新评估EVMBench：AI智能体（AI Agent）是否已做好应对智能合约安全挑战的准备？》的相关研究，涵盖评估数据与配套支持脚本。

创建时间：

2026-03-11

原始信息汇总

Re-Evaluating EVMBench 数据集概述

数据集基本信息

数据集名称：Re-Evaluating EVMBench
关联论文："Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?"
数据来源：部分评估数据和支撑脚本改编自 OpenAI Frontier Evals

数据集内容与用途

核心内容：包含用于评估AI代理在智能合约安全领域能力的代码与数据集。
评估模式：支持检测（detect）、修复（patch）和利用（exploit）三种安全评估模式。
评估任务：包含检测任务（detect-tasks）、修复任务（patch-tasks）和利用任务（exploit-tasks）等任务划分。

数据集结构与评估

评估对象：针对具体的审计项目（audit），例如 2024-06-thorchain、ch-0025。
评分依据：
- 检测模式：依据 submission/audit.md（审计报告）进行评分。
- 修复模式：依据 submission/agent.diff（针对基础提交的统一差异文件）进行评分。
- 利用模式：依据 submission/txs.json（待执行交易）进行评分。
代理支持：支持多种AI代理进行评估，例如 human、codex-default、claude-default、gemini-default、opencode-default。

使用与运行

依赖管理：使用 uv 工具进行依赖同步。
环境构建：依赖Docker镜像，包括基础镜像 ploit-builder:latest 和针对各审计任务的独立Docker镜像。
环境变量：非human代理需要API密钥，主要配置 OPENROUTER_API_KEY。
运行方式：可通过 run.sh 脚本或直接调用 evmbench.nano.entrypoint 模块运行评估。
配置选项：可配置评估模式、单个审计项目、任务划分、提示级别、是否应用黄金解决方案以及并发数等。

输出与结果

输出位置：默认输出至 runs/ 目录。
日志文件：每次调用会生成包含 group.log 的运行组目录以及每个审计的运行日志文件。

许可证

许可证类型：Apache License, Version 2.0

搜集汇总

数据集介绍

构建方式

在智能合约安全评估领域，Re-Evaluating EVMBench数据集的构建体现了严谨的工程化流程。该数据集源自真实区块链安全事件，通过系统化收集历史审计报告与漏洞利用案例，形成了结构化的评估任务。构建过程依赖于Docker容器技术，为每个审计任务创建独立的执行环境，确保评估的一致性与可复现性。数据集的划分依据任务类型，分为检测、修补与利用三种模式，每种模式对应不同的安全评估维度，从而全面覆盖智能合约安全分析的关键环节。

特点

Re-Evaluating EVMBench数据集的核心特点在于其多层次评估框架与真实世界导向。数据集紧密围绕实际发生的智能合约安全事件设计，确保了评估场景的现实意义与挑战性。它支持多种人工智能代理的集成，通过统一的接口允许研究者测试不同模型在安全任务上的表现。数据集的评估标准明确，分别针对漏洞检测报告、代码补丁生成以及漏洞利用交易进行自动化评分，这种多维度的评估机制能够深入揭示AI代理在复杂安全环境中的实际能力与局限。

使用方法

使用该数据集进行智能合约安全评估，需遵循其提供的标准化工作流程。研究者首先需配置必要的API密钥与环境变量，以启用不同的人工智能代理。通过执行封装好的脚本，可以指定具体的评估模式、审计任务以及代理类型，启动自动化的评估过程。评估系统会在隔离的Docker容器中运行代理，并自动提取和评分其输出的审计报告、代码差异或交易数据。这种设计使得大规模、可复现的基准测试成为可能，为比较不同AI方法在智能合约安全领域的性能提供了可靠平台。

背景与挑战

背景概述

在智能合约安全领域，随着区块链技术的广泛应用，自动化安全审计工具的需求日益增长。Re-Evaluating EVMBench数据集由相关研究团队于2024年创建，旨在重新评估人工智能代理在智能合约安全任务中的实际能力。该数据集基于前沿的EVM（以太坊虚拟机）环境，聚焦于检测、修补和利用智能合约漏洞等核心研究问题，为智能合约安全自动化提供了重要的基准测试平台，推动了安全审计从传统人工方式向智能化方向的演进。

当前挑战

该数据集旨在解决智能合约安全自动化中的多任务评估挑战，包括漏洞检测、代码修补和漏洞利用的生成，这些任务要求模型具备深度的代码理解和安全逻辑推理能力。在构建过程中，挑战主要源于智能合约的复杂性和多样性，例如需要模拟真实的EVM执行环境、整合多链RPC服务以确保评估的准确性，以及设计统一的评估框架以支持不同代理的公平比较，这些因素增加了数据集构建的技术难度和资源需求。

常用场景

经典使用场景

在智能合约安全评估领域，Re-Evaluating EVMBench数据集为研究人员提供了一个标准化的基准测试平台，用于系统评估人工智能代理在智能合约漏洞检测、修复和利用方面的能力。该数据集通过集成真实世界的智能合约审计案例，模拟了从漏洞识别到代码修补及攻击模拟的全流程，使得研究者能够在受控环境中测试不同AI模型的安全分析性能。其经典使用场景包括设计对比实验，以量化各类AI代理在检测重入攻击、整数溢出等常见漏洞时的准确率与效率，从而推动自动化安全工具的发展。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于其评估框架的AI代理性能比较研究，例如对Codex、Claude、Gemini等大语言模型在智能合约安全任务上的系统性评测。这些研究揭示了模型在理解复杂合约逻辑和生成安全补丁方面的差异。同时，数据集催生了新型混合代理架构的开发，结合符号执行与深度学习以提升漏洞检测精度。此外，部分工作扩展了数据集的场景，将其适配至跨链智能合约安全评估，进一步推动了区块链安全领域的标准化进程。

数据集最近研究