nguyenminh871/multi_class_solidity_function_vulnerabilty

Name: nguyenminh871/multi_class_solidity_function_vulnerabilty
Creator: nguyenminh871
Published: 2023-04-28 08:23:53
License: 暂无描述

Hugging Face2023-04-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nguyenminh871/multi_class_solidity_function_vulnerabilty

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: 'Unnamed: 0' dtype: int64 - name: func dtype: string - name: target dtype: int64 - name: project dtype: string splits: - name: train num_bytes: 5745139.2 num_examples: 14889 - name: test num_bytes: 1915046.4 num_examples: 4963 - name: validation num_bytes: 1915046.4 num_examples: 4963 download_size: 2325677 dataset_size: 9575232.0 --- # Dataset Card for "multi_class_solidity_function_vulnerabilty" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征： - 名称：未命名列0（Unnamed: 0）数据类型：int64 - 名称：函数（func）数据类型：字符串 - 名称：目标变量（target）数据类型：int64 - 名称：项目（project）数据类型：字符串数据集划分： - 名称：训练集（train）字节数：5745139.2 样本数：14889 - 名称：测试集（test）字节数：1915046.4 样本数：4963 - 名称：验证集（validation）字节数：1915046.4 样本数：4963 下载大小：2325677 数据集总大小：9575232.0 --- # 「多分类Solidity（智能合约编程语言）函数漏洞」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

nguyenminh871

原始信息汇总

数据集概述

数据集名称

multi_class_solidity_function_vulnerabilty

数据集特征

Unnamed: 0：数据类型为 int64。
func：数据类型为 string。
target：数据类型为 int64。
project：数据类型为 string。

数据集划分

训练集：包含14889个样本，总大小为5745139.2字节。
测试集：包含4963个样本，总大小为1915046.4字节。
验证集：包含4963个样本，总大小为1915046.4字节。

数据集大小

下载大小：2325677字节。
数据集总大小：9575232.0字节。

搜集汇总

数据集介绍

构建方式

在智能合约安全分析领域，数据集的构建需兼顾代码的多样性与漏洞标注的精确性。本数据集通过收集实际部署的Solidity智能合约函数，并依据安全审计标准进行多类别漏洞标注，形成了包含训练集、验证集与测试集的完整结构。每个样本均包含函数源代码、所属项目及对应的漏洞类型标签，确保了数据来源的真实性与标注的专业性。

特点

该数据集的核心特点在于其专注于Solidity函数级别的多分类漏洞检测，覆盖了多种常见的安全漏洞类型。数据样本均源自真实的区块链项目，具有高度的实践代表性；同时，数据集提供了标准化的分割方案，便于模型训练与评估的顺利进行。其结构清晰，特征字段明确，为智能合约自动化安全审计研究提供了高质量的基础资源。

使用方法

使用本数据集时，研究者可将其直接应用于智能合约漏洞检测模型的开发与验证。通常，将‘func’字段作为模型输入，将‘target’字段作为多分类标签，并按照预设的训练、验证与测试划分进行模型训练与性能评估。该数据集兼容主流机器学习框架，能够有效支持分类、序列建模等多种任务，助力于提升智能合约的安全分析能力。

背景与挑战

背景概述

在区块链技术蓬勃发展的背景下，智能合约的安全性问题日益凸显，尤其是基于Solidity语言编写的合约。nguyenminh871/multi_class_solidity_function_vulnerabilty数据集应运而生，旨在为智能合约漏洞检测提供多分类标注数据。该数据集由研究人员nguyenminh871创建，聚焦于识别Solidity函数级别的多种漏洞类型，如重入攻击、整数溢出等，以支持自动化安全审计工具的开发。其出现推动了智能合约安全研究从二分类向细粒度多分类的演进，为构建更精准的漏洞检测模型奠定了数据基础，对提升区块链生态系统整体安全性具有重要影响力。

当前挑战

该数据集致力于解决智能合约漏洞检测领域的核心挑战，即准确识别和分类多种复杂漏洞模式。由于Solidity合约的语义多样性和攻击向量不断演化，模型需具备区分细微漏洞特征的能力，避免误报和漏报。在构建过程中，挑战主要源于数据标注的复杂性：需要专业知识来识别不同漏洞类别，并确保标注一致性和覆盖范围；同时，数据收集需平衡各类漏洞的样本分布，防止类别不平衡影响模型性能。这些因素共同构成了数据集在应用和扩展中的关键障碍。

常用场景

经典使用场景

在智能合约安全分析领域，该数据集为多类别漏洞检测提供了关键资源。其核心应用场景在于训练机器学习模型，特别是深度学习架构，以自动识别Solidity函数中存在的各类安全漏洞，如重入攻击、整数溢出或访问控制缺陷。通过提供标注的代码片段，研究者能够构建分类器，实现对合约代码的静态或动态分析，从而在部署前预警潜在风险。

解决学术问题

该数据集直接应对了区块链安全研究中代码漏洞自动识别的挑战。它解决了传统手动审计效率低下、覆盖范围有限的问题，为学术探索提供了标准化基准。通过多类别标注，促进了漏洞分类、特征提取及模型泛化能力的研究，推动了智能合约安全从经验驱动向数据驱动范式的转变，对提升区块链生态系统整体安全性具有深远意义。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作。例如，基于其构建的图神经网络（GNN）模型，能够捕获代码的语义结构以提升检测精度；此外，结合迁移学习的方法，解决了标注数据稀缺下的模型适应问题。这些工作不仅推动了智能合约安全领域的算法创新，也为后续更大规模、更细粒度漏洞数据集的构建奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集