FORGE-Artifacts

github2025-07-20 更新2025-07-21 收录

下载链接：

https://github.com/shenyimings/FORGE-Artifacts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由FORGE框架构建的大规模智能合约漏洞数据集，通过利用大型语言模型（LLMs）和通用弱点枚举（CWE）标准，解决了现有漏洞数据集的关键挑战：手动构建的劳动密集和易出错、分类标准不一致以及可扩展性有限。

This dataset is a large-scale smart contract vulnerability dataset constructed using the FORGE framework. It leverages Large Language Models (LLMs) and the Common Weakness Enumeration (CWE) standard to address the key challenges faced by existing vulnerability datasets: labor-intensive and error-prone manual construction, inconsistent classification standards, and limited scalability.

创建时间：

2025-06-22

原始信息汇总

FORGE-Artifact 数据集概述

数据集来源

来源于论文《FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction》，该论文被ICSE 2026接收。

数据集内容

漏洞信息：存储在dataset/results目录中。
Solidity代码文件：存储在dataset/contracts目录中。
审计报告：由于GitHub存储限制，审计报告托管在Cloudflare R2存储上，可通过API令牌下载。

数据集统计信息

统计项	数值
总审计报告数量	6,454
总DApp项目数量	6,579
总Solidity文件数量	81,390
每个项目平均Solidity文件数量	12
每个项目平均代码行数	2,575
编译器版本
编译器版本0.4+	270
编译器版本0.5+	478
编译器版本0.6+	1,524
编译器版本0.7+	360
编译器版本0.8+	3,791
其他编译器版本	31
漏洞
总漏洞发现数量	27,497

数据集特点

包含81,390个Solidity文件和27,497个漏洞，涵盖296个CWE类别。
59.0%的项目使用最新的Solidity编译器版本（0.8+）。
每个项目平均2,575行代码，代表真实世界的复杂性。

评估结果

RQ1：数据集统计信息和分析工具RQ1/statistic.ipynb。
RQ2：信息提取能力评估结果存储在evaluation/RQ2/目录中。
RQ3：漏洞分类评估结果存储在evaluation/RQ3/目录中，包括Krippendorffs Alpha计算模板。
RQ4：13个检测工具的CWE分类结果存储在evaluation/RQ4/目录中。

相关资源

论文链接：https://arxiv.org/abs/2506.18795
数据集访问示例：dataset/access_reports.ipynb

搜集汇总

数据集介绍

构建方式

在智能合约安全研究领域，FORGE-Artifacts数据集通过创新性的LLM驱动框架实现了自动化构建。该框架采用四阶段模块化设计：语义分块器将审计报告分解为语义完整的片段，MapReduce提取器通过分布式处理抽取漏洞信息，层次分类器基于树状思维推理将漏洞归类至CWE标准体系，代码获取模块则从多平台同步智能合约源代码。这种端到端的自动化流程有效解决了传统人工构建中效率低下、标准不统一等核心痛点。

使用方法

研究者可通过GitHub仓库快速获取数据集，其中漏洞信息存储于dataset/results目录，合约源代码存放于dataset/contracts。对于大规模审计报告，建议通过配套的Python脚本访问云端存储。数据集支持三种应用模式：直接使用预构建的漏洞集合进行模型训练；通过修改src/core/invoker.py提示词构建定制化基准测试；结合evaluation目录下的统计分析工具进行数据质量验证。框架提供的uv/pip双安装方案及模块化命令体系，支持用户灵活执行提取、分类、代码获取等独立流程。

背景与挑战

背景概述

FORGE-Artifacts数据集由陈嘉驰等研究人员于2025年提出，旨在解决智能合约安全领域的漏洞检测难题。该数据集基于ICSE 2026会议论文提出的FORGE框架构建，通过整合6,454份真实审计报告，形成了包含81,390个Solidity文件和27,497个漏洞的庞大规模。其创新性在于采用大语言模型技术实现自动化标注，并严格遵循CWE标准进行漏洞分类，显著提升了数据集的标准化程度与可扩展性。作为当前最全面的智能合约漏洞库，该数据集为区块链安全研究提供了重要的基准资源。

当前挑战

在智能合约漏洞检测领域，传统数据集面临人工标注成本高、分类标准不统一等核心挑战。FORGE-Artifacts构建过程中需突破三重技术难点：审计报告语义分割的准确性要求、跨平台源代码的自动化获取难题，以及基于树状思维链的CWE层级分类实现。数据集应用层面，如何保持动态更新以适应快速演进的智能合约生态，以及平衡LLM标注效率与人工验证精度，仍是待解的关键问题。

常用场景

经典使用场景

在区块链安全研究领域，FORGE-Artifacts数据集为智能合约漏洞检测与分析提供了标准化基准。该数据集通过自动化框架整合了6544份真实审计报告中的27497个漏洞实例，覆盖296种CWE分类，成为验证新型检测算法准确性与泛化能力的黄金标准。其层次化分类体系特别适合评估机器学习模型在复杂漏洞模式识别中的表现，如重入攻击、整数溢出等典型智能合约安全问题。

解决学术问题

该数据集有效解决了智能合约安全研究中三个核心难题：人工标注成本高昂导致数据集规模受限的问题，通过LLM驱动的自动化构建将数据量提升至行业领先水平；分类标准不统一造成的评估偏差问题，采用CWE体系实现跨研究可比性；真实场景缺失引发的过拟合风险，81390个Solidity文件构成的高多样性样本为模型鲁棒性测试提供保障。其动态更新机制进一步确保了研究结论的时效性价值。

实际应用

安全审计机构已将该数据集作为智能合约自动化检测工具的校准基准，通过比对历史漏洞模式提升新型项目的风险识别率。区块链开发团队利用其编译器版本分布数据优化开发环境配置，降低兼容性漏洞发生率。DeFi平台则借助合约代码特征分析模块，在项目接入前完成潜在漏洞的初步筛查，显著提升生态系统整体安全性。

数据集最近研究