FORGE Curated
收藏github2026-02-18 更新2026-02-20 收录
下载链接:
https://github.com/shenyimings/FORGE-Curated
下载链接
链接失效反馈官方服务:
资源简介:
FORGE Curated是FORGE数据集的一个高质量子集,专门设计用于支持智能合约安全的高级研究,包括基于AI的审计、漏洞分析等。该数据集包含2024年12月至2026年2月期间由11个顶级审计团队发布的审计报告,并通过FORGE框架提取和分类了漏洞数据。
FORGE Curated is a high-quality subset of the FORGE dataset, specifically designed to support advanced research on smart contract security, including AI-powered auditing, vulnerability analysis and other related research topics. It encompasses audit reports released by 11 leading audit teams between December 2024 and February 2026, with vulnerability data extracted and categorized via the FORGE framework.
创建时间:
2026-02-11
原始信息汇总
FORGE Curated 数据集概述
数据集简介
FORGE Curated 是一个高质量的 EVM 智能合约漏洞数据集,专门用于支持智能合约安全领域的高级研究,包括基于 AI 的审计、漏洞分析等。该数据集是 FORGE 数据集 的一个精选子集。
数据来源与范围
- 数据来源:数据集基于 11 个顶级审计团队在 2024 年 12 月至 2026 年 2 月 期间发布的公开审计报告。
- 处理方式:使用 FORGE 框架 从报告中提取和分类漏洞数据,并正在进行人工验证以确保漏洞发现与具体代码位置的映射准确。
数据集结构
数据集仓库的核心目录结构如下:
dataset-curated/:核心精选数据集。contracts/:仅包含*.sol文件的源代码。contracts-raw/:包含.git信息的原始项目源代码。findings/:提取的漏洞发现(JSON 格式)。findings-without-source/:无法解析源代码的发现。reports/:原始的 PDF 审计报告。
flatten/:将发现和源代码整合在单个.json文件中的扁平化数据集。vfp/:漏洞-文件对(全部)。vfp-vuln/:漏洞-文件对(仅包含中、高、严重等级)。
models/:数据模型和定义。cwe_dict.json:CWE 字典。schemas.py:Pydantic 数据模式。
scripts/:实用脚本。
关键统计信息
总体概览
| 指标 | 数值 |
|---|---|
| 已处理的审计报告总数 | 323 |
| 可访问源代码的报告数 | 208 |
| 项目总数 | 252 |
| 发现总数 | 2,469 |
| Solidity 文件总数 | 29,221 |
| 代码总行数 (LoC) | 4,762,386 |
| 项目平均 LoC | ~18,898 |
| 项目平均文件数 | ~116 |
按严重性划分的发现
| 严重性等级 | 数量 |
|---|---|
| 严重 | 67 |
| 高 | 244 |
| 中 | 430 |
| 低 | 772 |
| 信息 | 879 |
| 不适用 | 77 |
数据集构成
| 指标 | 数值 |
|---|---|
| 漏洞-文件对总数 | 627 |
| 高影响 VFPs(中/高/严重) | 304 |
数据模式
审计报告中的发现 (JSON)
JSON 文件遵循以下核心结构:
path:原始审计报告 PDF 的路径。project_info:被审计项目的元数据,包含url、commit_id、chain、audit_date、project_path等字段。findings:报告中的漏洞发现列表。每个发现包含id、category、title、description、severity、location、files等字段。
漏洞-文件对 (VFP)
JSON 文件遵循以下核心结构:
vfp_id:对的唯一 ID。project_name:源审计报告/项目的名称。findings:此 VFP 中包含的发现列表。affected_files:字典,键为文件名,值为完整的源代码字符串。
重要说明
- 提交检出:仓库中的子模块不会自动检出到被审计的提交。要使用被审计的特定代码版本,必须手动(或使用 Git python 模块)检出项目元数据中提供的
commit_id。 - 数据来源:所有数据均收集自公开来源。审计团队的纳入基于初步收集,并不构成对审计质量的排名,也不保证项目没有错误。
- 免责声明:数据集旨在支持研究,不应用于生产环境的安全评估。
应用场景
- 基准测试与训练:用于基于 AI 的智能合约审计系统。
- 工具评估:评估 SAST/DAST 漏洞分析工具。
- 教育:学习和实践 Web3 安全。
- 生态分析:分析 2024 年底至 2026 年初的智能合约安全趋势。
搜集汇总
数据集介绍
构建方式
在智能合约安全研究领域,构建高质量基准数据集对于推动自动化审计与漏洞分析至关重要。FORGE Curated数据集的构建过程始于对原始FORGE数据集用户反馈的整合,并严格遵循ICSE'26论文中阐述的负责任维护承诺。研究团队系统性地收集了2024年12月至2026年2月期间由11家顶级审计团队发布的323份公开审计报告,随后利用FORGE框架从这些报告中自动化提取漏洞发现信息并进行分类。为确保漏洞定位的精确性,团队实施了人工验证流程,仔细核对每个漏洞发现与其在Solidity源代码中的具体位置映射关系,最终将经过校验的数据组织成结构化的目录体系。
使用方法
该数据集为智能合约安全研究提供了多维度应用路径。在模型训练与基准测试方面,研究者可直接加载flatten目录下的VFP文件,利用其中成对的漏洞描述与源代码进行AI审计模型的训练或性能评估。对于静态分析工具验证,可通过解析findings目录中的结构化JSON数据,将工具输出与数据集中标注的CWE分类及代码位置进行比对。在安全趋势分析场景中,结合项目元数据与审计时间信息,能够追踪2024年末至2026年初智能合约生态系统的安全演化模式。使用前需注意根据project_info中的commit_id手动检出对应代码版本,以确保实验环境与审计时的一致性。
背景与挑战
背景概述
FORGE Curated 数据集是 FORGE 数据集的一个高质量子集,专注于以太坊虚拟机智能合约安全研究领域。该数据集由相关研究团队于2025年6月通过学术论文正式提出,旨在为基于人工智能的合约审计、漏洞分析等前沿研究提供精准、可靠的基准数据。其核心研究问题在于解决智能合约安全领域中高质量、结构化标注数据的稀缺性,通过系统化收集2024年12月至2026年2月期间由11家顶级审计团队发布的公开审计报告,并提取漏洞信息与具体代码位置进行映射,显著提升了数据的一致性与可用性。该数据集的建立为智能合约安全工具的评估、漏洞模式的挖掘以及大语言模型在该领域的应用提供了至关重要的基础设施,推动了整个Web3安全生态的实证研究发展。
当前挑战
FORGE Curated 数据集致力于应对智能合约漏洞自动检测与分类的核心挑战。在领域问题层面,智能合约漏洞具有多样性和隐蔽性,传统分类体系(如SWC)往往覆盖面不足或已过时,该数据集引入CWE通用弱点枚举体系作为统一分类标准,旨在构建一个层次化、可扩展的漏洞知识框架,以支持跨工具、跨研究的公平比较。在构建过程中,挑战主要源于数据处理的复杂性:首先,需要从非结构化的PDF审计报告中精准提取漏洞描述、严重性、代码位置等多模态信息,并确保其与特定代码提交版本的正确关联;其次,部分历史项目的源代码提交可能已不可用或发生变更,需通过人工核查与邻近版本匹配来维持数据的完整性与准确性;此外,构建漏洞-文件对(VFP)时需处理漏洞与多个源文件之间的复杂映射关系,确保数据结构的严谨性以支撑下游任务。
常用场景
经典使用场景
在智能合约安全研究领域,FORGE Curated数据集最经典的应用场景是作为人工智能驱动审计系统的训练与评估基准。该数据集通过精心整理的漏洞-文件对(VFP)结构,将高风险的智能合约漏洞与其对应的Solidity源代码精确关联,为机器学习模型提供了高质量的监督信号。研究人员能够利用这些经过人工验证的标注数据,训练模型识别从权限管理缺陷到逻辑错误等多种安全漏洞,从而推动自动化安全分析工具的性能边界。
解决学术问题
该数据集有效解决了智能合约安全研究中长期存在的标注数据质量参差与时效性不足的学术难题。通过整合2024年末至2026年初顶级审计团队的报告,并采用CWE标准进行统一分类,它提供了大规模、高精度且时效性强的漏洞基准。这不仅为评估静态分析工具与动态检测方法提供了可靠依据,还促进了跨研究工作的公平比较,为构建更健壮的形式化验证框架与漏洞模式识别理论奠定了数据基础。
实际应用
在实际应用层面,FORGE Curated数据集被广泛用于提升商业安全审计工具的能力。安全公司可以基于该数据集微调其自动化扫描引擎,以更准确地检测新兴的合约漏洞模式。同时,区块链开发团队能够将其作为安全编码的参考案例库,通过分析历史漏洞实例来规避常见编码陷阱。此外,该数据集也为安全教育培训提供了丰富的现实案例,帮助开发者与审计师深入理解复杂漏洞的成因与修复策略。
数据集最近研究
最新研究方向
在智能合约安全领域,FORGE Curated数据集正推动基于人工智能的自动化审计技术迈向新的高度。该数据集通过精选2024年12月至2026年2月期间顶级审计团队的报告,构建了高质量且经过人工验证的漏洞-文件对,为大型语言模型的训练与评估提供了精准的基准。当前研究聚焦于利用该数据集开发能够理解复杂漏洞上下文、实现跨合约安全模式识别的智能分析系统,以应对DeFi生态中日益演化的攻击向量。这一进展不仅提升了自动化审计工具的准确性与泛化能力,也为构建下一代主动防御框架奠定了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成



