AI Security Dataset

github2025-11-04 更新2025-11-16 收录

下载链接：

https://github.com/GPT012/aisec-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个精心策划的Solidity智能合约安全审计报告和相应源代码数据集，用于AI训练目的。包含20个近期Solidity项目（2024年6月-2024年11月）及其安全审计报告，经过精心选择和清理，适用于AI训练应用。

A carefully curated dataset of Solidity smart contract security audit reports and their corresponding source codes for AI training purposes. It contains 20 recent Solidity projects spanning from June 2024 to November 2024, along with their respective security audit reports, which have been meticulously selected and cleaned to suit AI training applications.

创建时间：

2025-11-04

原始信息汇总

AI Security Dataset 概述

数据集简介

一个为AI训练目的精心整理的Solidity智能合约安全审计报告及对应源代码的数据集。

数据集结构

repos/：源代码仓库（20个项目）
reports/：安全审计报告（214个文件）

项目类型

DeFi协议：借贷、DEX、AMM、聚合器
稳定币协议：UStb、储备协议
NFT协议：交易、游戏、特质系统
质押/再质押：以太坊质押基础设施
跨链协议：桥接和多链协议
安全工具：多签、访问控制系统

数据统计

项目总数：20个
仓库文件：8,104个文件
审计报告：214个安全发现
时间范围：2024年6月-2024年11月
编程语言：主要为Solidity及测试文件

报告格式

所有报告遵循标准化格式：

## [H] - 高严重性发现
## [M] - 中严重性发现
## [L] - 低严重性发现

报告已清理移除：

外部URL和链接
审计评论和管理注释
测试工件和构建输出
相对路径引用

包含项目

2024-11-ethena-labs - 稳定币协议（2份报告）
2024-10-kleidi - 智能合约安全/多签（3份报告）
2024-10-loopfi - DeFi借贷协议（7份报告）
2024-10-ramses-exchange - DEX/AMM协议（2份报告）
2024-09-fenix-finance - DeFi协议（7份报告）
2024-08-basin - 流动性池协议（1份报告）
2024-08-phi - 游戏/NFT协议（15份报告）
2024-08-wildcat - 借贷协议（9份报告）
2024-07-basin - 流动性池协议（4份报告）
2024-07-benddao - NFT借贷协议（28份报告）
2024-07-dittoeth - DeFi协议（5份报告）
2024-07-karak - 质押/再质押协议（9份报告）
2024-07-loopfi - DeFi借贷协议（54份报告）
2024-07-munchables - 游戏协议（6份报告）
2024-07-reserve - 稳定币协议（7份报告）
2024-07-traitforge - NFT协议（25份报告）
2024-06-badger - DeFi协议（2份报告）
2024-06-krystal-defi - DeFi聚合器（5份报告）
2024-06-size - DeFi协议（17份报告）
2024-06-vultisig - 跨链协议（6份报告）

用途

智能合约安全分析的AI模型训练
自动化漏洞检测研究
区块链安全教育目的
静态分析工具开发

数据质量

所有项目均为经过验证的Solidity项目
报告已标准化和清理
源代码包含测试和文档
近期时间范围确保现代Solidity模式

许可证

各项目保留其原始许可证。此数据集汇编仅供研究和教育目的使用。

搜集汇总

数据集介绍

构建方式

在区块链安全研究领域，数据集的构建质量直接影响模型性能。该数据集通过系统化采集2024年6月至11月期间的20个Solidity智能合约项目，涵盖去中心化金融、稳定币协议等六大领域。构建过程中采用双轨制结构，分别存储8104个源代码文件与214份安全审计报告，所有报告均经过标准化清洗，移除外部链接与测试产物，确保数据纯净度与格式统一性。

特点

该数据集展现出鲜明的时效性与多样性特征，所有项目均采用现代Solidity开发模式，包含高、中、低三个风险等级的标准化漏洞分类。数据维度覆盖智能合约全生命周期，既包含实际部署的合约代码，又配备专业审计机构出具的安全评估。特别值得注意的是，数据集精心平衡了协议类型分布，既包含复杂的DeFi借贷系统，也囊括NFT特质铸造等新兴应用场景。

使用方法

针对人工智能训练场景，该数据集支持端到端的智能合约安全分析 pipeline 构建。研究人员可基于源代码与审计报告的映射关系，开发自动化漏洞检测模型。具体实施时，建议采用跨项目验证策略，将16个项目作为训练集，4个项目作为测试集，通过对比模型预测结果与专业审计结论，持续优化算法性能。数据集还可用于构建智能合约安全知识图谱，推动区块链安全教育的标准化进程。

背景与挑战

背景概述

随着区块链技术的迅猛发展，智能合约的安全审计成为保障去中心化应用可靠性的核心环节。AI Security Dataset由专业研究机构于2024年构建，聚焦于Solidity智能合约的安全漏洞分析，涵盖DeFi协议、稳定币系统及NFT生态等前沿领域。该数据集通过整合20个最新项目的源代码与214份标准化审计报告，为人工智能模型训练提供了高质量语料，显著推动了自动化安全检测技术在区块链领域的研究进程。

当前挑战

智能合约安全分析面临多重技术挑战：其一，合约代码的复杂性导致漏洞模式难以被传统规则引擎全面覆盖；其二，审计报告需统一高、中、低风险等级标准以适配机器学习任务。在数据构建过程中，原始报告存在大量非结构化注释与外部链接，需通过多轮清洗去除测试工件与路径引用，同时保持不同项目间代码规范与架构差异的兼容性，这对数据标准化流程提出了极高要求。

常用场景

经典使用场景

在区块链安全研究领域，该数据集为智能合约漏洞检测模型的训练提供了标准化语料。通过整合214份安全审计报告与对应Solidity源代码，研究人员能够构建端到端的自动化分析流程，涵盖从高危及低危漏洞的完整分类体系。这种结构化的数据组织方式特别适用于监督学习场景，模型可同时学习代码语义特征与审计报告中的安全逻辑关联。

衍生相关工作

该数据集催生了多项智能合约安全领域的创新研究。基于其构建的图神经网络模型成功捕获了合约函数间的调用依赖关系，而结合自然语言处理的跨模态学习方法则实现了审计报告与代码的语义对齐。后续研究进一步拓展至漏洞传播路径预测方向，衍生出针对复合型安全威胁的动态分析框架，推动了整个区块链安全研究范式的演进。

数据集最近研究