five

nguyenminh871/multi_class_solidity_function_vulnerabilty

收藏
Hugging Face2023-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguyenminh871/multi_class_solidity_function_vulnerabilty
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: 'Unnamed: 0' dtype: int64 - name: func dtype: string - name: target dtype: int64 - name: project dtype: string splits: - name: train num_bytes: 5745139.2 num_examples: 14889 - name: test num_bytes: 1915046.4 num_examples: 4963 - name: validation num_bytes: 1915046.4 num_examples: 4963 download_size: 2325677 dataset_size: 9575232.0 --- # Dataset Card for "multi_class_solidity_function_vulnerabilty" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息: 特征: - 名称:未命名列0(Unnamed: 0) 数据类型:int64 - 名称:函数(func) 数据类型:字符串 - 名称:目标变量(target) 数据类型:int64 - 名称:项目(project) 数据类型:字符串 数据集划分: - 名称:训练集(train) 字节数:5745139.2 样本数:14889 - 名称:测试集(test) 字节数:1915046.4 样本数:4963 - 名称:验证集(validation) 字节数:1915046.4 样本数:4963 下载大小:2325677 数据集总大小:9575232.0 --- # 「多分类Solidity(智能合约编程语言)函数漏洞」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
nguyenminh871
原始信息汇总

数据集概述

数据集名称

multi_class_solidity_function_vulnerabilty

数据集特征

  • Unnamed: 0:数据类型为 int64。
  • func:数据类型为 string。
  • target:数据类型为 int64。
  • project:数据类型为 string。

数据集划分

  • 训练集:包含14889个样本,总大小为5745139.2字节。
  • 测试集:包含4963个样本,总大小为1915046.4字节。
  • 验证集:包含4963个样本,总大小为1915046.4字节。

数据集大小

  • 下载大小:2325677字节。
  • 数据集总大小:9575232.0字节。
搜集汇总
数据集介绍
main_image_url
构建方式
在智能合约安全分析领域,数据集的构建需兼顾代码的多样性与漏洞标注的精确性。本数据集通过收集实际部署的Solidity智能合约函数,并依据安全审计标准进行多类别漏洞标注,形成了包含训练集、验证集与测试集的完整结构。每个样本均包含函数源代码、所属项目及对应的漏洞类型标签,确保了数据来源的真实性与标注的专业性。
特点
该数据集的核心特点在于其专注于Solidity函数级别的多分类漏洞检测,覆盖了多种常见的安全漏洞类型。数据样本均源自真实的区块链项目,具有高度的实践代表性;同时,数据集提供了标准化的分割方案,便于模型训练与评估的顺利进行。其结构清晰,特征字段明确,为智能合约自动化安全审计研究提供了高质量的基础资源。
使用方法
使用本数据集时,研究者可将其直接应用于智能合约漏洞检测模型的开发与验证。通常,将‘func’字段作为模型输入,将‘target’字段作为多分类标签,并按照预设的训练、验证与测试划分进行模型训练与性能评估。该数据集兼容主流机器学习框架,能够有效支持分类、序列建模等多种任务,助力于提升智能合约的安全分析能力。
背景与挑战
背景概述
在区块链技术蓬勃发展的背景下,智能合约的安全性问题日益凸显,尤其是基于Solidity语言编写的合约。nguyenminh871/multi_class_solidity_function_vulnerabilty数据集应运而生,旨在为智能合约漏洞检测提供多分类标注数据。该数据集由研究人员nguyenminh871创建,聚焦于识别Solidity函数级别的多种漏洞类型,如重入攻击、整数溢出等,以支持自动化安全审计工具的开发。其出现推动了智能合约安全研究从二分类向细粒度多分类的演进,为构建更精准的漏洞检测模型奠定了数据基础,对提升区块链生态系统整体安全性具有重要影响力。
当前挑战
该数据集致力于解决智能合约漏洞检测领域的核心挑战,即准确识别和分类多种复杂漏洞模式。由于Solidity合约的语义多样性和攻击向量不断演化,模型需具备区分细微漏洞特征的能力,避免误报和漏报。在构建过程中,挑战主要源于数据标注的复杂性:需要专业知识来识别不同漏洞类别,并确保标注一致性和覆盖范围;同时,数据收集需平衡各类漏洞的样本分布,防止类别不平衡影响模型性能。这些因素共同构成了数据集在应用和扩展中的关键障碍。
常用场景
经典使用场景
在智能合约安全分析领域,该数据集为多类别漏洞检测提供了关键资源。其核心应用场景在于训练机器学习模型,特别是深度学习架构,以自动识别Solidity函数中存在的各类安全漏洞,如重入攻击、整数溢出或访问控制缺陷。通过提供标注的代码片段,研究者能够构建分类器,实现对合约代码的静态或动态分析,从而在部署前预警潜在风险。
解决学术问题
该数据集直接应对了区块链安全研究中代码漏洞自动识别的挑战。它解决了传统手动审计效率低下、覆盖范围有限的问题,为学术探索提供了标准化基准。通过多类别标注,促进了漏洞分类、特征提取及模型泛化能力的研究,推动了智能合约安全从经验驱动向数据驱动范式的转变,对提升区块链生态系统整体安全性具有深远意义。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作。例如,基于其构建的图神经网络(GNN)模型,能够捕获代码的语义结构以提升检测精度;此外,结合迁移学习的方法,解决了标注数据稀缺下的模型适应问题。这些工作不仅推动了智能合约安全领域的算法创新,也为后续更大规模、更细粒度漏洞数据集的构建奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作