Forge

Name: Forge
Creator: 中山大学，珠海，中国
Published: 2025-06-24 00:03:16
License: 暂无描述

arXiv2025-06-24 更新2025-06-25 收录

下载链接：

https://github.com/shenyimings/FORGEArtifacts

下载链接

链接失效反馈

官方服务：

资源简介：

Forge是一个基于大型语言模型（LLM）的自动化框架，用于从真实世界的智能合约审计报告中提取高质量的安全漏洞信息，并将其分类到通用弱点枚举（CWE）分类中。该框架采用分而治之的策略和思维树技术，从非结构化的审计报告中提取结构化且独立的漏洞信息，并实现漏洞信息的层次分类。Forge框架通过分析6,454份真实世界的审计报告，构建了一个包含81,390个Solidity文件和27,497个漏洞发现的大规模数据集，覆盖了296个CWE类别。该数据集的构建过程高效且自动化，显著提高了数据集的规模和质量，为智能合约安全研究提供了重要的数据资源。

Forge is an automated framework based on a Large Language Model (LLM) that is designed to extract high-quality security vulnerability information from real-world smart contract audit reports and classify them into the Common Weakness Enumeration (CWE) categories. Utilizing a divide-and-conquer strategy and mind-tree technology, the framework extracts structured and independent vulnerability information from unstructured audit reports, achieving hierarchical classification of vulnerability information. Through the analysis of 6,454 real-world audit reports, Forge has constructed a large-scale dataset containing 81,390 Solidity files and 27,497 vulnerability discoveries, covering 296 CWE categories. The construction process of this dataset is efficient and automated, significantly enhancing the scale and quality of the dataset, providing an important data resource for smart contract security research.

提供机构：

中山大学，珠海，中国

创建时间：

2025-06-24

搜集汇总

数据集介绍

构建方式

在区块链安全领域，高质量漏洞数据集的构建一直是推动智能合约安全研究的关键挑战。Forge数据集通过创新的LLM驱动框架，采用分治策略处理非结构化审计报告，利用语义分块技术将冗长报告分解为语义连贯的文本单元，再通过MapReduce范式实现结构化漏洞信息提取。框架引入思维树推理技术，结合CWE分层分类体系，实现漏洞信息的标准化分类，最终通过代码获取模块整合源代码文件与漏洞信息，形成完整的漏洞数据集。整个构建过程仅需229.5小时即可处理6,454份审计报告，展现出卓越的工程效率。

特点

Forge数据集以其规模性和专业性在智能合约安全领域树立了新标杆。数据集包含81,390个Solidity文件和27,497个漏洞发现，覆盖296个CWE类别，平均每个项目包含2,575行代码，其中59.0%使用最新Solidity编译器版本。其核心价值在于实现了漏洞描述的标准化分类，通过CWE体系解决了传统分类方案中的命名不一致问题。数据集特别注重真实场景的代表性，所有样本均来自47个专业安全团队的审计报告，确保了漏洞实例的实践相关性。同时，95.6%的提取精度和0.87的专家一致性系数证明了数据质量的可信度。

使用方法

该数据集为智能合约安全研究提供了多维度应用场景。研究人员可基于统一的CWE分类体系进行跨工具基准测试，现有评估显示13种主流安全工具的平均F1值仅为5.06%，揭示了当前检测能力的局限性。开发者可通过分析漏洞频率-严重性分布模式，优化合约开发实践中的风险防控策略。数据集支持从代码属性、编译器版本等多角度进行细粒度分析，如探究0.8+编译器版本下的新型漏洞模式。此外，其标准化的JSON格式和完整的元数据（包括项目URL、commit ID等）为复现研究和增量更新提供了便利。

背景与挑战

背景概述

Forge数据集由中山大学等机构的研究团队于2025年提出，旨在解决智能合约安全领域高质量漏洞数据集稀缺的问题。该数据集通过LLM驱动的自动化框架，从真实世界审计报告中提取漏洞信息，并采用CWE标准进行分类，显著提升了数据集的规模和质量。Forge包含81,390个Solidity文件和27,497个漏洞发现，覆盖296个CWE类别，为智能合约安全研究提供了重要基准。

当前挑战

Forge数据集面临的挑战主要包括：1) 领域问题方面，智能合约漏洞检测工具的评估缺乏统一标准，现有工具在真实漏洞上的检测效果有限（最高F1分数仅18.59%）；2) 构建过程中，审计报告结构复杂且篇幅长（如Uniswap v4 Core审计报告达63页），CWE分类体系层级深（超过900个弱点类型），以及LLM存在上下文窗口限制和幻觉问题。这些挑战通过分治策略和思维树技术得到有效解决，最终实现95.6%的提取精度和0.87的专家一致性系数。

常用场景

经典使用场景

Forge数据集在智能合约安全研究领域具有广泛的应用价值，其经典使用场景包括智能合约漏洞检测工具的评估与优化。通过提供大规模、高质量的CWE标注漏洞数据，研究人员能够系统性地测试现有工具的检测能力，并开发新型检测算法。例如，在符号执行、静态分析和机器学习等方法的性能评估中，该数据集能够提供真实场景下的漏洞样本，帮助揭示传统方法在处理复杂业务逻辑漏洞时的局限性。

衍生相关工作

该数据集已衍生出多个具有影响力的研究方向：NumScout等工具利用其数值缺陷数据改进符号执行技术；Web3Bugs研究通过跨数据集分析揭示了机器学习可检测漏洞的边界；DAppSCAN项目则借鉴其自动化构建框架创建了DApp专属漏洞库。这些工作共同推动了智能合约安全从经验驱动向数据驱动研究的范式转变。

数据集最近研究