Aligned Bytecode Vulnerability Pattern Dataset

Name: Aligned Bytecode Vulnerability Pattern Dataset
Creator: 哈尔滨工程大学烟台研究院, 西电杭州研究院, 深圳北理莫斯科大学工程系, 浙江大学计算机科学与技术学院
Published: 2025-09-12 21:56:56
License: 暂无描述

arXiv2025-09-12 更新2025-09-16 收录

下载链接：

https://github.com/smartcontract2025/Bytecode_pattern_extractor

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由哈尔滨工程大学烟台研究院、西电杭州研究院、深圳北理莫斯科大学工程系和浙江大学计算机科学与技术学院的研究人员创建。数据集通过将源代码模式映射到操作码级别的对应物来构建，是首个与源代码定义对齐的漏洞模式数据集。它为智能合约漏洞检测提供了细粒度的监督，并指导模型关注漏洞关键区域。数据集的创建旨在解决智能合约漏洞检测中字节码语义不透明、粗粒度图嵌入、字节码中缺乏漏洞模式的正式化和注释，以及图级对齐的局限性等问题。

提供机构：

哈尔滨工程大学烟台研究院, 西电杭州研究院, 深圳北理莫斯科大学工程系, 浙江大学计算机科学与技术学院

创建时间：

2025-09-12

原始信息汇总

数据集概述

基本信息

数据集名称：Smart Contract Bytecode Graph Constructor and expert pattern extrctor
主要功能：从智能合约字节码（操作码）构建图结构，并使用专门设计的专家模式对节点进行标注

核心特性

字节码到图的转换：直接从以太坊字节码构建控制流图（CFGs）
专家模式标注：实现针对特定漏洞检测的专用模式，包括：
- 时间戳依赖性
- 重入漏洞
- 无限循环

技术实现

专家模式实现

将引用论文中的专家模式扩展到直接处理字节码：

时间戳依赖模式 检测包含TIMESTAMP或BLOCKHASH操作码的块及其数据依赖的后继块

重入模式 识别遵循检查-效果-交互模式的危险调用序列

无限循环模式 通过跳转分析检测潜在的无限循环

输出格式

生成的图遵循以下JSON结构：

{ "nodes": ["block_1", "block_2", ...], "edges": [[0, 1], [1, 2], ...], "target_nodes": [3, 5, ...] }

学术基础

基于以下源代码方法的研究成果：

[IJCAI 2021] Smart Contract Vulnerability Detection: From Pure Neural Network to Interpretable Graph Feature and Expert Pattern Fusion
[TKDE 2021] Combining Graph Neural Networks with Expert Knowledge for Smart Contract Vulnerability Detection

搜集汇总

数据集介绍

构建方式

在智能合约安全分析领域，Aligned Bytecode Vulnerability Pattern Dataset通过系统化映射源代码漏洞模式至字节码层面构建而成。研究团队首先总结现有源代码漏洞模式（如重入、时间戳依赖、无限循环），并为每种模式设计对应的字节码级子模式。随后从以太坊等平台收集包含Solidity源代码及对应字节码的智能合约，经预处理筛选后，采用专家定义的字节码模式对控制流图节点进行细粒度标注，最终形成首个源代码与字节码定义对齐的漏洞模式数据集。

特点

该数据集的核心特征体现在其跨模态对齐能力与专家知识融合机制。数据集涵盖重入漏洞、时间戳依赖漏洞和无限循环漏洞三大关键类型，每种类型均包含多个精细化子模式（如callValueInvocation、balanceDeduction等）。其独特之处在于通过操作码级模式定义，将源代码的高层语义与字节码的低层结构建立精确映射，并提供函数级漏洞信号标注。此外，数据集控制流图中的节点均附有专家标注的漏洞关键区域指示，为模型提供局部结构感知的监督信号。

使用方法

该数据集专为支持跨模态知识蒸馏框架而设计，主要用于训练字节码漏洞检测模型。使用时需将智能合约字节码解析为控制流图，并加载数据集中对应的专家模式标注作为局部对齐监督信号。在训练过程中，通过全局图嵌入对齐损失和局部节点对齐损失实现源代码到字节码的知识迁移。推理阶段仅需输入字节码，利用训练后的学生模型直接进行漏洞检测，无需访问源代码模态。

背景与挑战

背景概述

Aligned Bytecode Vulnerability Pattern Dataset由哈尔滨工程大学、西安电子科技大学等机构的研究团队于2025年提出，旨在解决智能合约安全分析中字节码语义透明度不足的核心问题。该数据集首次实现了源代码与字节码漏洞模式的跨模态对齐，通过专家定义的再入、时间戳依赖和无限循环三类漏洞模式，为字节码分析提供细粒度标注。其创新性在于构建了源代码级语义图与字节码级控制流图的精确映射关系，推动了智能合约漏洞检测从依赖源代码到纯字节码分析的范式转变，对区块链安全领域具有里程碑意义。

当前挑战

该数据集解决的领域挑战包括字节码语义缺失导致的漏洞检测精度下降，以及传统方法对源代码的过度依赖。构建过程中的核心挑战在于跨模态对齐的复杂性：需将源代码高级语义结构（如变量类型、控制流）精确映射至低层级字节码操作码；同时需设计专家驱动的漏洞模式转换规则，确保源代码与字节码漏洞特征在语法和逻辑层面的一致性。此外，字节码的指令冗余性和编译器优化差异进一步增加了标注的一致性与可靠性保障难度。

常用场景

经典使用场景

在智能合约安全分析领域，Aligned Bytecode Vulnerability Pattern Dataset为跨模态漏洞检测提供了关键支撑。该数据集通过精准对齐源代码与字节码层面的漏洞模式标注，使得研究者能够构建基于专家知识的细粒度监督信号，显著提升了重入漏洞、时间戳依赖和无限循环等典型安全风险的检测精度。其核心应用场景包括训练双注意力图神经网络（DAGN），实现从源代码到字节码的语义蒸馏，为仅能获取字节码的实际部署环境提供高可靠性检测能力。

实际应用

在实际部署中，该数据集支撑了智能合约漏洞检测工具在真实区块链环境中的落地应用。由于绝大多数已部署合约仅公开字节码，该数据集训练的模型可直接对以太坊虚拟机（EVM）字节码进行安全审计，应用于去中心化金融（DeFi）、供应链管理等场景的合约风险筛查。通过提取操作码级别的漏洞模式特征，实现了对重入攻击、时间戳操纵及拒绝服务漏洞的高效识别，为交易所、审计公司提供了自动化安全检测解决方案，有效降低了因合约漏洞导致的经济损失。

衍生相关工作

该数据集衍生出多项跨模态智能合约分析的重要工作。基于其构建的专家模式标注体系，研究者开发了双焦点蒸馏框架ExDoS，实现了全局语义与局部节点对齐的联合优化；后续研究进一步扩展了图神经网络架构，如引入异构子图聚合机制增强模式捕获能力。此外，该数据集推动了字节码原生检测工具的发展，包括结合符号执行的混合分析方法和基于强化学习的漏洞修复推荐系统，为智能合约安全生态提供了从检测到修复的全链条技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集