ai-auditing-benchmark

github2026-04-23 更新2026-04-24 收录

下载链接：

https://github.com/GoPlusSecurity/ai-auditing-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于AI智能合约审计的基准数据集，收集并提取了由智能合约漏洞引起的真实历史攻击中的漏洞合约源代码，旨在评估和训练审计能力（例如，与`ai-auditing-engine`等工具一起使用）。

A benchmark dataset for AI-powered smart contract auditing that collects and extracts vulnerable contract source code from real historical attacks caused by smart contract vulnerabilities, and is designed to evaluate and train auditing capabilities (e.g., for use with tools such as `ai-auditing-engine`).

创建时间：

2026-04-22

原始信息汇总

AI 智能合约审计基准数据集

这是一个面向 AI 智能合约审计 的基准数据集。它从真实世界中由智能合约漏洞导致的历史攻击事件中，整理并提取了存在漏洞的合约源码，旨在评估和训练 AI 的审计能力。

数据来源与目标

来源：公开的链上/安全事件报告和代码仓库快照，对应每个事件中被利用或发现缺陷的合约。
目标：
- 提供可复现、可比较的真实漏洞样本。
- 支持在 完整上下文 和 缩小攻击面 两种粒度下评估 AI 审计性能。

目录结构

数据位于 dataset/ 目录下，按事件组织。每个事件目录的命名规则为：{事件日期YYYYMMDD}_{项目或协议名}。

dataset/ ├── benchmark_complete/ # 被利用合约的完整代码（包括依赖/库），尽可能接近可审计/可编译的快照 └── benchmark_simplified/ # 仅保留与漏洞相关的函数及最小必要依赖，移除明显无关逻辑

benchmark_complete

包含被利用合约的 完整源码树（包括接口、库、第三方依赖等），适用于：
- 跨合约和跨模块交互分析
- 需要完整调用图和状态流上下文的审计工作流

benchmark_simplified

基于 同一事件 的代码，仅保留漏洞函数（以及编译和语义理解所需的最小依赖），移除与漏洞无关的函数，适用于：
- 集成到类似 ai-auditing-engine 的引擎时 缩小输入范围，更容易 精确定位漏洞
- 降低 Token 和计算成本，加快迭代评估

注意：benchmark_simplified 可能仍包含一些库文件或接口，因为漏洞函数可能通过类型、常量或数学库耦合。指导原则是“最小必要”，而非“仅单文件 (.sol)”。

事件索引（CSV 文件）

仓库根目录下的 CSV 文件列出了 dataset/ 中当前包含的 所有事件，应视作元数据的权威来源：

中文版：ai-auditing-benchmark_cn.csv
英文版：ai-auditing-benchmark_en.csv

两个 CSV 文件行数相同，仅字段语言不同。列含义说明：

Attack date（攻击日期）：事件日期（YYYY.MM.DD）。
Project（项目）：被利用的项目或协议（显示名称可能与目录名略有差异，例如带有 @ 或括号注释）。
Vulnerability（漏洞类型）：漏洞类型的简短描述。
Vulnerability details（漏洞详情）：利用技术和缺陷描述。
Attack transaction（攻击交易）：代表性的链上交易哈希。
Vulnerable contract address（漏洞合约地址）：相关的合约地址（一个单元格内可能跨多行）。
Loss (10k USD)（损失，万美元）：报告或估计的损失金额。

目录命名映射：dataset/benchmark_complete 和 benchmark_simplified 下的事件文件夹均采用 {事件日期YYYYMMDD}_{项目或协议名} 格式。日期从 Attack date（攻击日期） 推导为 8 位数字（例如 2025.05.28 → 20250528）。{项目或协议名} 对应 Project（项目） 列，通常是文件系统安全的短横线/驼峰式名称。如果 Project（项目） 列包含额外注释，目录名称仍使用简短的协议标识符，以仓库中的实际文件夹名称为准。

快速开始（按事件定位代码）

在 CSV 中查找目标事件行（按 Attack date（攻击日期） / Project（项目））。
将 Attack date（攻击日期） 转换为 YYYYMMDD，并与项目名组合：{YYYYMMDD}_{ProjectSlug}。
选择一种粒度：
- dataset/benchmark_complete/{目录}/...：完整上下文（更接近真实审计输入）。
- dataset/benchmark_simplified/{目录}/...：最小必要切片（更少 Token，更快回归）。

示例：2025.05.28 + @Corkprotocol → dataset/benchmark_simplified/20250528_Corkprotocol/

建议与 AI 审计引擎配合使用

回归与对比：对同一事件，在 benchmark_complete 和 benchmark_simplified 上运行相同的审计提示/流程，比较检出率、误报率和成本。
日常迭代：开发期间使用 benchmark_simplified 进行快速验证；发布前使用 benchmark_complete 进行更贴近生产环境的抽样检查。

许可与免责声明

本仓库中的代码片段来自公开项目源码或事件相关公开材料；版权归原作者所有。它们仅用于安全研究和基准评估。
漏洞代码可能具有 破坏性。请勿将其用于非法目的。如果在论文或产品中使用本数据集，请引用数据集名称和版本/提交信息。

贡献与更新

欢迎通过 Issue 和 PR 添加新事件、修复路径或改进“漏洞函数”切片规则。对于新增条目，请维护 benchmark_complete 和 benchmark_simplified 之间的映射关系，并更新 CSV 元数据（ai-auditing-benchmark_cn.csv、ai-auditing-benchmark_en.csv）。在 PR 中简要描述事件来源和漏洞类型。

搜集汇总

数据集介绍

构建方式

该数据集从公开的链上安全事件报告与项目仓库快照中，系统性地搜集并提取了因智能合约漏洞而遭受攻击的易受攻击合约源代码。数据按事件组织，每个事件目录以攻击日期与项目缩写的组合命名，确保排序与检索的便利性。数据集提供两种粒度：完整上下文版本保留合约的完整源码树，包含接口、库及第三方依赖，适用于全模块交互分析；精简攻击面版本则仅保留与漏洞直接相关的函数及最小必要依赖，剔除了无关逻辑，以降低输入规模与计算成本。

特点

数据集的核心特色在于其双重粒度的设计，兼顾了审计评估的全面性与效率。完整上下文版本忠实还原了可审计或可编译的快照，支持跨合约与跨模块的调用图及数据流分析，贴近真实审计场景。精简攻击面版本则大幅压缩输入范围，便于集成至AI审计引擎时精准定位漏洞，同时显著减少代币与算力消耗，加速迭代评估。此外，数据集附有中英文元数据CSV，详细记录攻击日期、项目、漏洞类型、攻击交易哈希及损失金额等信息，为每个事件提供了权威的索引依据。

使用方法

使用者可先通过CSV文件按攻击日期与项目名称定位目标事件，将日期转换为八位数字格式后与项目缩写组合，形成目录路径。随后根据需求选择粒度：完整上下文版本用于模拟真实审计输入，进行全上下文分析；精简攻击面版本用于快速回归验证与日常开发迭代。建议在开发阶段使用精简版本进行快速测试与调优，发布前以完整版本进行生产级验证，从而在成本与性能间取得平衡。

背景与挑战

背景概述

在区块链生态蓬勃发展的背景下，智能合约安全事件频发，给用户资产与协议稳定性带来严峻挑战。为此，旨在评估与提升人工智能审计能力的基准数据集ai-auditing-benchmark应运而生。该数据集由安全研究团队创建，其核心目标是从真实世界的历史安全事件中提取并整理存在漏洞的合约源代码，为AI驱动的审计引擎提供可复现、可比较的评估样本。数据集涵盖多种攻击类型与协议，通过提供完整上下文与精简攻击面两种粒度的样本，支撑从跨合约交互分析到精准漏洞定位的多层次评估需求，已成为智能合约安全审计领域重要的研究基础设施。

当前挑战

该数据集面临的挑战首先在于领域问题层面：智能合约漏洞类型多样且攻击手法持续演进，现有样本能否覆盖不断出现的新型攻击模式，直接影响审计模型的泛化能力与实用性。其次，在构建过程中，从链上交易与安全报告中精确提取并还原被利用的合约代码，需应对代码片段不完整、依赖关系复杂以及事件时间戳对齐困难等技术难题。此外，如何权衡完整上下文提供的全面性与精简样本带来的计算效率，同时确保两种粒度下的评估结果具有可比性，也是数据集设计中的关键挑战。

常用场景

经典使用场景

在智能合约安全审计领域，ai-auditing-benchmark数据集被广泛用于评估和训练人工智能审计模型。其核心设计在于提供两类粒度级别的真实漏洞样本：benchmark_complete保留合约完整源码与依赖关系，适用于需要全局调用图和状态流转分析的全上下文审计场景；benchmark_simplified则仅提取漏洞相关函数与最小依赖，大幅压缩输入规模，便于快速迭代与精准定位缺陷。研究者可通过同一事件的两类数据对比，系统检验模型在不同上下文复杂度下的检测率、误报率与计算成本，从而优化审计引擎的性能与鲁棒性。

衍生相关工作

基于ai-auditing-benchmark，学术界和产业界已衍生出多项经典工作。一方面，该数据集被用于训练和微调大型语言模型（如GPT、LLaMA系列）的智能合约审计能力，催生了如ai-auditing-engine等专用审计引擎，实现了从漏洞特征提取到风险评估的全流程自动化。另一方面，研究者利用其双粒度结构探索了上下文缩减对模型检测精度的影响规律，提出了最佳输入裁剪策略与注意力机制优化方案。此外，该数据集还推动了跨合约漏洞传播分析、多阶段攻击链复现等前沿课题，成为智能合约安全领域重要的基准与催化剂。

数据集最近研究