nguyenminh871/multi_class_solidity_function_vulnerabilty
收藏Hugging Face2023-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguyenminh871/multi_class_solidity_function_vulnerabilty
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: 'Unnamed: 0'
dtype: int64
- name: func
dtype: string
- name: target
dtype: int64
- name: project
dtype: string
splits:
- name: train
num_bytes: 5745139.2
num_examples: 14889
- name: test
num_bytes: 1915046.4
num_examples: 4963
- name: validation
num_bytes: 1915046.4
num_examples: 4963
download_size: 2325677
dataset_size: 9575232.0
---
# Dataset Card for "multi_class_solidity_function_vulnerabilty"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征:
- 名称:未命名列0(Unnamed: 0)
数据类型:int64
- 名称:函数(func)
数据类型:字符串
- 名称:目标变量(target)
数据类型:int64
- 名称:项目(project)
数据类型:字符串
数据集划分:
- 名称:训练集(train)
字节数:5745139.2
样本数:14889
- 名称:测试集(test)
字节数:1915046.4
样本数:4963
- 名称:验证集(validation)
字节数:1915046.4
样本数:4963
下载大小:2325677
数据集总大小:9575232.0
---
# 「多分类Solidity(智能合约编程语言)函数漏洞」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
nguyenminh871
原始信息汇总
数据集概述
数据集名称
multi_class_solidity_function_vulnerabilty
数据集特征
- Unnamed: 0:数据类型为 int64。
- func:数据类型为 string。
- target:数据类型为 int64。
- project:数据类型为 string。
数据集划分
- 训练集:包含14889个样本,总大小为5745139.2字节。
- 测试集:包含4963个样本,总大小为1915046.4字节。
- 验证集:包含4963个样本,总大小为1915046.4字节。
数据集大小
- 下载大小:2325677字节。
- 数据集总大小:9575232.0字节。
搜集汇总
数据集介绍

构建方式
在智能合约安全分析领域,数据集的构建需兼顾代码的多样性与漏洞标注的精确性。本数据集通过收集实际部署的Solidity智能合约函数,并依据安全审计标准进行多类别漏洞标注,形成了包含训练集、验证集与测试集的完整结构。每个样本均包含函数源代码、所属项目及对应的漏洞类型标签,确保了数据来源的真实性与标注的专业性。
特点
该数据集的核心特点在于其专注于Solidity函数级别的多分类漏洞检测,覆盖了多种常见的安全漏洞类型。数据样本均源自真实的区块链项目,具有高度的实践代表性;同时,数据集提供了标准化的分割方案,便于模型训练与评估的顺利进行。其结构清晰,特征字段明确,为智能合约自动化安全审计研究提供了高质量的基础资源。
使用方法
使用本数据集时,研究者可将其直接应用于智能合约漏洞检测模型的开发与验证。通常,将‘func’字段作为模型输入,将‘target’字段作为多分类标签,并按照预设的训练、验证与测试划分进行模型训练与性能评估。该数据集兼容主流机器学习框架,能够有效支持分类、序列建模等多种任务,助力于提升智能合约的安全分析能力。
背景与挑战
背景概述
在区块链技术蓬勃发展的背景下,智能合约的安全性问题日益凸显,尤其是基于Solidity语言编写的合约。nguyenminh871/multi_class_solidity_function_vulnerabilty数据集应运而生,旨在为智能合约漏洞检测提供多分类标注数据。该数据集由研究人员nguyenminh871创建,聚焦于识别Solidity函数级别的多种漏洞类型,如重入攻击、整数溢出等,以支持自动化安全审计工具的开发。其出现推动了智能合约安全研究从二分类向细粒度多分类的演进,为构建更精准的漏洞检测模型奠定了数据基础,对提升区块链生态系统整体安全性具有重要影响力。
当前挑战
该数据集致力于解决智能合约漏洞检测领域的核心挑战,即准确识别和分类多种复杂漏洞模式。由于Solidity合约的语义多样性和攻击向量不断演化,模型需具备区分细微漏洞特征的能力,避免误报和漏报。在构建过程中,挑战主要源于数据标注的复杂性:需要专业知识来识别不同漏洞类别,并确保标注一致性和覆盖范围;同时,数据收集需平衡各类漏洞的样本分布,防止类别不平衡影响模型性能。这些因素共同构成了数据集在应用和扩展中的关键障碍。
常用场景
经典使用场景
在智能合约安全分析领域,该数据集为多类别漏洞检测提供了关键资源。其核心应用场景在于训练机器学习模型,特别是深度学习架构,以自动识别Solidity函数中存在的各类安全漏洞,如重入攻击、整数溢出或访问控制缺陷。通过提供标注的代码片段,研究者能够构建分类器,实现对合约代码的静态或动态分析,从而在部署前预警潜在风险。
解决学术问题
该数据集直接应对了区块链安全研究中代码漏洞自动识别的挑战。它解决了传统手动审计效率低下、覆盖范围有限的问题,为学术探索提供了标准化基准。通过多类别标注,促进了漏洞分类、特征提取及模型泛化能力的研究,推动了智能合约安全从经验驱动向数据驱动范式的转变,对提升区块链生态系统整体安全性具有深远意义。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作。例如,基于其构建的图神经网络(GNN)模型,能够捕获代码的语义结构以提升检测精度;此外,结合迁移学习的方法,解决了标注数据稀缺下的模型适应问题。这些工作不仅推动了智能合约安全领域的算法创新,也为后续更大规模、更细粒度漏洞数据集的构建奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



