Audit Competition Benchmark
收藏github2026-02-24 更新2026-02-26 收录
下载链接:
https://github.com/Ackee-Blockchain/wake-arena-benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含来自Code4rena和Sherlock审计竞赛的14个协议,所有代码库和竞赛结果均为公开。评估指标为检测到的高严重性漏洞(经竞赛评审确认)。
This dataset comprises 14 protocols sourced from Code4rena and Sherlock audit contests, with all code repositories and contest results publicly accessible. The evaluation metric is defined as the number of high-severity vulnerabilities that are detected and subsequently confirmed by contest judges.
创建时间:
2026-02-23
原始信息汇总
Wake Arena Benchmarks 数据集概述
数据集基本信息
- 数据集名称:Wake Arena Benchmarks
- 数据集用途:用于评估 Wake Arena(一个基于图驱动推理的多智能体 AI 智能合约审计系统)的基准测试结果。
- 关联系统:Wake Arena,一个用于 Solidity 智能合约的多智能体 AI 审计系统,利用数据依赖图和控制流图进行图驱动推理。
基准测试详情
审计竞赛基准
- 数据来源:来自 Code4rena 和 Sherlock 审计竞赛的 14 个协议。
- 对比基准:与 Zellic Scanner V12、EVMBench、Plain GPT-5 以及 Plain Opus 4.5 进行对比。
- 评估指标:检测到的高严重性漏洞数量(经竞赛评审确认)。
- 测试时间:2025年11月。
性能对比结果
| 协议 | 高严重性问题总数 | Wake Arena 检测数 | Zellic Scanner V12 检测数 | EVMBench 检测数 | Plain GPT-5 检测数 | Plain Opus 4.5 检测数 |
|---|---|---|---|---|---|---|
| Basin | 2 | 2 | 2 | 2 | 2 | 2 |
| Blackhole | 2 | 2 | 2 | 0 | 1 | 0 |
| Burve | 9 | 2 | 2 | 2 | 2 | 0 |
| Crestal | 1 | 1 | 1 | 1 | 1 | 1 |
| DODO | 5 | 2 | 2 | 2 | 1 | 4 |
| Lambo.win | 4 | 2 | 2 | 1 | 2 | 1 |
| Lend | 28 | 13 | 10 | 4 | 4 | 6 |
| Mellow | 6 | 2 | 2 | 1 | 1 | 0 |
| Munchables | 5 | 4 | 4 | 3 | 2 | 3 |
| Notional Exponent | 11 | 2 | 2 | 1 | 0 | 0 |
| Phi | 7 | 4 | 6 | 2 | 3 | 3 |
| Superfluid | 2 | 1 | 1 | 1 | 1 | 0 |
| TraitForge | 6 | 2 | 1 | 1 | 2 | 0 |
| Virtuals | 6 | 4 | 4 | 1 | 2 | 1 |
| 总计 | 94 | 43 (45.7%) | 41 (43.6%) | 22 (22.3%) | 24 (25.5%) | 21 (22.3%) |
测试条件说明
- Plain GPT-5:通过 Code CLI 运行,提示词为
"perform extensive deep Solidity smart contract security analysis",无特殊指导。 - Plain Opus 4.5:通过 Claude Code CLI 运行,提示词和条件相同。
- Wake Arena:使用标准配置运行,未针对每个协议进行调整。
- EVMBench:在 Web 端使用 Codex-GPT-5.2,在本地使用 Codex-GPT-5.2-xhigh 运行(结果相同)。
生产环境审计结果
Wake Arena 于 2025年11月被集成到 Ackee Blockchain 的手动审计工作流中,用于三个生产协议。
审计结果汇总
| 客户 | 项目 | 交付日期 | 审计时长 | AI发现/总发现数 | 严重 | 高 | 中 | 低 | 警告 | 信息 |
|---|---|---|---|---|---|---|---|---|---|---|
| Lido | Stonks 2.0 | 2025年12月2日 | 15天 | 4 / 17 | 0/0 | 0/0 | 1/1 | 1/2 | 1/5 | 1/9 |
| Everstake | ETH2 Batch Deposit | 2025年11月14日 | 2天 | 1 / 2 | 0/0 | 0/0 | 0/0 | 0/0 | 0/0 | 1/2 |
| Printr | Protocol | 2025年10月1日 | 32天 | 21 / 60 | 5/10 | 0/4 | 1/5 | 4/10 | 4/15 | 7/16 |
| 总计 | 26 / 79 | 5/10 | 0/4 | 2/6 | 5/12 | 5/20 | 9/27 |
关键指标
- Wake Arena 发现了生产审计中 33% 的所有问题 和 50% 的严重问题。
- 在 Printr 审计中,它发现了 5 个严重漏洞 和 5 个超出人工审计员发现的独特问题。
- 在纯 AI 驱动的审计测试(与 LUKSO 合作)中,Wake Arena 发现了 10 个问题(2个高严重性,6个中严重性,1个低严重性,1个警告),仅有 2 个误报。
聚合指标
| 指标 | 值 |
|---|---|
| 真阳性率 | > 50% |
| 假阳性率 | < 50% |
| 占所有报告问题的比例 | 33% |
| 占严重问题的比例 | 50% |
各协议详细发现
数据集包含了 Wake Arena 在基准测试数据集中检测到的每个高严重性漏洞的详细描述。所有发现均为独立发现,无特殊提示或人工协助。
已列出的协议及发现数量摘要
- Basin:2/2 个高严重性问题。
- Blackhole:2/2 个高严重性问题。
- Burve:2/9 个高严重性问题。
- Crestal:1/1 个高严重性问题。
- DODO Cross-Chain DEX:2/5 个高严重性问题。
- Lambo.win:2/4 个高严重性问题。
- Lend:13/28 个高严重性问题。
- Mellow:2/6 个高严重性问题。
- Munchables:4/5 个高严重性问题(描述截断)。
数据链接
- 完整技术说明:https://ackee.xyz/blog/wake-arena-multi-agent-ai-audit-with-graph-driven-reasoning/
- 审计报告示例:
- Lido Stonks 2.0:https://github.com/Ackee-Blockchain/public-audit-reports/blob/master/2025/ackee-blockchain-lido-stonks-2.0-report.pdf
- Everstake ETH2 Batch Deposit:https://github.com/Ackee-Blockchain/public-audit-reports/blob/master/2025/ackee-blockchain-everstake-eth2-batch-deposit-report.pdf
- Printr Protocol:https://github.com/Ackee-Blockchain/public-audit-reports/blob/master/2025/ackee-blockchain-printr-protocol-report.pdf
- 原始审计竞赛链接:包含在基准测试表格各协议名称中(如 Basin 链接至 https://code4rena.com/reports/2024-07-basin)。
搜集汇总
数据集介绍
构建方式
在智能合约安全审计领域,Audit Competition Benchmark数据集通过精心筛选公开审计竞赛中的真实案例构建而成。该数据集涵盖了来自Code4rena和Sherlock平台的14个协议,这些协议均经过社区验证并包含已确认的高危漏洞。构建过程中,所有代码库及审计发现均基于公开信息,确保了数据来源的透明性与可复现性。数据集的设计旨在模拟实际审计环境,通过整合多源竞赛数据,为评估自动化审计工具的性能提供了标准化基准。
特点
该数据集的核心特点在于其高度真实性与挑战性,所有案例均源自实际审计竞赛,并聚焦于高危漏洞的检测。数据集覆盖了多样化的协议类型与漏洞模式,从权限绕过到逻辑错误,全面反映了智能合约安全中的典型风险。此外,数据集通过严格的验证机制,仅纳入经竞赛评审确认的漏洞,确保了评估结果的权威性。其结构化设计便于进行横向比较,为研究多智能体审计系统的效能提供了可靠依据。
使用方法
使用该数据集时,研究人员可将其作为基准测试平台,评估各类智能合约审计工具的性能。典型应用包括运行自动化扫描系统,如Wake Arena,通过标准配置对数据集中的协议进行全流程分析,涵盖编译、图分析、多智能体推理及报告生成。用户需遵循一致的测试条件,避免针对特定协议进行调优,以确保结果的客观性。数据集的评估指标以高危漏洞检出率为核心,支持与现有工具进行量化对比,从而推动审计技术的迭代与优化。
背景与挑战
背景概述
在智能合约安全审计领域,自动化漏洞检测工具的效能评估长期缺乏标准化基准。Audit Competition Benchmark数据集应运而生,由Ackee Blockchain等机构于2025年构建,旨在系统评估多智能体AI审计系统在真实竞争环境中的表现。该数据集精心选取了来自Code4rena和Sherlock平台的14个公开审计项目,涵盖94个高严重性漏洞,为核心研究问题——即图驱动推理与多智能体协同在复杂合约漏洞挖掘中的有效性——提供了实证基础。其构建不仅推动了智能合约安全审计从依赖专家经验向自动化、可度量方向的演进,也为后续研究设立了严谨的对比框架。
当前挑战
该数据集致力于解决智能合约自动化安全审计中的核心挑战:如何在高复杂度、强对抗性的真实代码环境中,实现高严重性漏洞的精准识别与低误报率。具体而言,挑战体现在两方面:其一,领域问题层面,智能合约的图结构复杂性与语义多样性导致传统静态分析工具难以平衡检测广度与深度,而动态执行路径的爆炸式增长进一步加剧了漏洞覆盖的难度;其二,构建过程层面,数据集的创建需确保协议选取的代表性与漏洞标注的权威性,依赖公开审计竞赛的裁决结果虽保障了真实性,但不同竞赛的评判标准差异与漏洞描述的异构性,为数据标准化与模型泛化能力评估带来了显著挑战。
常用场景
经典使用场景
在区块链智能合约安全审计领域,Audit Competition Benchmark数据集作为评估自动化审计工具性能的核心基准,其经典使用场景聚焦于对多代理AI审计系统进行标准化测试。该数据集精心选取了来自Code4rena和Sherlock等知名审计竞赛的14个真实协议代码库,涵盖了去中心化金融、跨链交易及非同质化代币等复杂场景,通过对比不同审计工具在检测高危漏洞方面的表现,为研究者提供了衡量算法准确性与鲁棒性的统一尺度。
解决学术问题
该数据集有效解决了智能合约自动化安全分析中普遍存在的泛化能力不足与误报率过高两大核心学术难题。通过整合公开审计竞赛中已验证的高危漏洞案例,它为机器学习模型提供了高质量的训练与测试样本,使得研究者能够深入探索图神经网络与多智能体协同推理在代码语义理解中的应用边界。其构建显著推动了形式化验证与动态分析技术的融合,为建立可解释、可复现的智能合约安全评估范式奠定了数据基础。
衍生相关工作
围绕该数据集衍生的经典研究工作主要集中在多模态漏洞检测框架的演进。早期研究如Zellic Scanner V12基于静态分析结合启发式规则实现基础检测,而后续工作则逐步引入控制流图与数据依赖图的联合表征学习。近年来,基于大语言模型的代码语义理解技术(如GPT-5、Opus 4.5)进一步与图推理引擎融合,催生了如EVMBench等专注于EVM字节码分析的创新系统,这些进展共同推动了智能合约安全审计从规则驱动向认知智能的范式转变。
以上内容由遇见数据集搜集并总结生成



