solidity

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/hs666888/solidity

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含7种常见漏洞类型（重入、时间戳依赖、整数溢出、tod、tx.origin、unchecked-send、unhandled-exceptions和安全合约）的区块链智能合约 Solidity 源代码样本，针对稀缺漏洞类型，使用了基于模版的数据样本增强技术以平衡数据分布，适用于神经网络模型的训练、验证与测试，旨在支持智能合约漏洞检测、分类及安全分析研究。

This dataset contains Solidity source code samples of blockchain smart contracts for 7 common vulnerability types as well as secure contracts. The 7 vulnerability types are Reentrancy, Timestamp Dependency, Integer Overflow, TOD, tx.origin, Unchecked Send, and Unhandled Exceptions. To balance the data distribution, template-based data sample augmentation techniques were employed for underrepresented vulnerability types. This dataset is applicable for the training, validation and testing of neural network models, and aims to support research on smart contract vulnerability detection, classification and security analysis.

创建时间：

2025-12-01

原始信息汇总

数据集概述

数据集来源

地址：https://github.com/hs666888/solidity

数据集内容

核心内容：包含区块链智能合约 Solidity 源代码样本。
覆盖漏洞类型：共7种常见漏洞类型，具体包括：
1. 重入
2. 时间戳依赖
3. 整数溢出
4. tod
5. tx.origin
6. unchecked-send
7. unhandled-exceptions和安全合约

数据处理与特点

数据增强技术：针对稀缺漏洞类型，采用了基于模版的数据样本增强技术。
数据分布：通过增强技术平衡了数据分布。

数据集用途

适用任务：适用于神经网络模型的训练、验证与测试。
研究目标：旨在支持智能合约漏洞检测、分类及安全分析研究。

搜集汇总

数据集介绍

构建方式

在区块链智能合约安全研究领域，数据集的构建需兼顾漏洞类型的多样性与样本分布的均衡性。该数据集聚焦于Solidity智能合约源代码，涵盖了重入、时间戳依赖、整数溢出、tod、tx.origin、unchecked-send、unhandled-exceptions及安全合约等七种常见漏洞类型。针对稀缺漏洞类型，研究团队采用了基于模板的数据样本增强技术，通过模拟生成或合理扩展相关代码片段，有效平衡了各类漏洞的数据分布，从而确保了数据集在训练、验证与测试过程中的代表性与可靠性。

特点

该数据集的核心特点在于其针对性与实用性。它不仅系统性地收录了智能合约中七类关键漏洞的源代码样本，还通过数据增强技术缓解了稀缺类型样本不足的问题，提升了数据集的均衡性。这种设计使得数据集能够更全面地反映实际智能合约的安全风险，为神经网络模型提供高质量的训练素材，从而支持漏洞检测、分类及安全分析等研究任务，具有较强的学术与应用价值。

使用方法

在智能合约安全分析的研究与应用中，该数据集可直接用于神经网络模型的训练、验证与测试。研究人员可依据数据集中标注的漏洞类型，构建或优化检测模型，实现自动化漏洞识别与分类。同时，数据集中的安全合约样本可作为基准参考，辅助评估模型性能。通过合理划分训练集与测试集，研究者能够系统开展实验，推动智能合约安全技术的进步与实用化。

背景与挑战

背景概述

随着区块链技术的快速发展，智能合约作为去中心化应用的核心组件，其安全性问题日益凸显。Solidity数据集由研究团队于近年构建，聚焦于智能合约漏洞检测领域，旨在解决源代码层面的安全风险。该数据集涵盖了重入、整数溢出等七类常见漏洞，通过基于模版的数据增强技术平衡了稀缺样本的分布，为神经网络模型提供了高质量的训练与评估基础，显著推动了智能合约自动化安全分析的研究进展。

当前挑战

在智能合约漏洞检测领域，核心挑战在于准确识别复杂逻辑中的隐蔽安全缺陷，如重入攻击与时间戳依赖问题，这些漏洞往往涉及跨合约交互与状态一致性。数据构建过程中，面临漏洞样本稀缺与分布不均衡的困难，研究者采用模版增强技术以扩充数据，但如何确保生成样本的真实性与多样性，避免模型过拟合，仍需进一步探索。

常用场景

经典使用场景

在区块链安全领域，智能合约漏洞检测一直是研究热点。该数据集通过提供涵盖重入、整数溢出等七种常见漏洞类型的Solidity源代码样本，为神经网络模型的训练与评估奠定了坚实基础。研究人员可借助此数据集构建分类模型，精准识别合约代码中的安全缺陷，从而推动自动化漏洞检测技术的发展。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究，例如基于图神经网络的合约漏洞检测框架、结合符号执行的混合分析方法，以及面向多分类任务的注意力机制模型。这些工作不仅拓展了数据集的应用维度，还推动了智能合约安全从规则匹配向深度学习范式的演进，为后续研究提供了重要的方法论参考与基准对比依据。

数据集最近研究