five

Hierarchical Graph Matching Network —— Classification Dataset

收藏
github2023-04-17 更新2024-05-31 收录
下载链接:
https://github.com/runningoat/hgmn_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是Hierarchical Graph Matching Network论文中用于分类任务的数据集。

此数据集系《分层图匹配网络》一文中所述,旨在支持分类任务的执行。
创建时间:
2019-10-17
原始信息汇总

数据集概述

数据集名称

Hierarchical Graph Matching Network —— Classification Dataset

数据集用途

用于Hierarchical Graph Matching Network论文中的分类任务。

数据集获取方式

用户需下载本仓库中的文件,并按照发布的代码中提到的位置进行放置。

数据集相关技术细节

  • FFmpeg CFGs:直接从官方网站的源代码编译的二进制文件中提取。
  • OpenSSL CFGs:从GitHub仓库xiaojunxu/dnn-binary-code-similarity中过滤原始CFG数据,用于实验的子数据集文件。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于从官方源代码编译的二进制文件中提取的控制流图(CFG),特别是针对ffmpeg项目。对于OpenSSL项目,数据集则是从现有的二进制代码相似性研究仓库中筛选并处理得到的子数据集。这种构建方式确保了数据的真实性和代表性,为图匹配网络的研究提供了坚实的基础。
特点
该数据集的特点在于其层次化的图结构,专门设计用于支持分类任务。数据集中的每个图都代表了从实际软件项目中提取的控制流图,这些图不仅包含了丰富的结构信息,还反映了软件功能的复杂性。此外,数据集的多样性和专业性使其成为研究图匹配和分类算法的理想选择。
使用方法
使用该数据集时,用户需从GitHub仓库下载相关文件,并按照提供的代码指南将其放置在指定位置。数据集的使用旨在支持图匹配网络的研究,特别是分类任务。通过这种方式,研究人员可以有效地利用这些数据来训练和测试他们的模型,探索图结构数据在分类任务中的应用潜力。
背景与挑战
背景概述
Hierarchical Graph Matching Network —— Classification Dataset 是一个专为分类任务设计的数据集,源自于Hierarchical Graph Matching Network研究论文。该数据集由研究人员从FFmpeg和OpenSSL的二进制文件中提取控制流图(CFG)构建而成,旨在解决图匹配网络中的分类问题。FFmpeg的CFG直接来源于其官方网站编译的二进制文件,而OpenSSL的CFG则从已有的二进制代码相似性研究仓库中筛选并整理。该数据集的创建时间为论文发布同期,主要研究人员包括论文作者及其合作机构。该数据集为图神经网络领域的研究提供了重要的实验基础,推动了图匹配算法在分类任务中的应用与发展。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,图匹配网络的分类任务本身具有较高的复杂性,尤其是在处理大规模图数据时,如何高效提取和匹配图结构特征是一个核心难题。其次,数据集的构建依赖于从二进制文件中提取控制流图,这一过程需要精确的逆向工程技术和大量的计算资源,以确保数据的准确性和完整性。此外,由于FFmpeg和OpenSSL的代码库庞大且复杂,如何筛选出具有代表性的子数据集用于实验,也是一个重要的挑战。这些挑战不仅影响了数据集的构建效率,也对后续的模型训练和性能评估提出了更高的要求。
常用场景
经典使用场景
在软件工程和网络安全领域,Hierarchical Graph Matching Network —— Classification Dataset 数据集被广泛应用于二进制代码相似性分析。通过从FFmpeg和OpenSSL等开源软件的二进制文件中提取控制流图(CFG),该数据集为研究者提供了一个标准化的平台,用于训练和评估图神经网络模型,特别是层次图匹配网络(HGNN)。这些模型能够有效识别不同编译条件下的代码相似性,为软件漏洞检测和代码克隆检测提供了重要支持。
实际应用
在实际应用中,该数据集为软件安全分析工具的开发提供了重要支持。例如,在漏洞检测中,安全研究人员可以利用该数据集训练模型,快速识别不同版本软件中的相似漏洞代码片段。此外,该数据集还可用于代码克隆检测,帮助开发者在大型代码库中定位重复代码,从而提高代码维护效率和质量。
衍生相关工作
基于该数据集,研究者们开发了一系列经典的图神经网络模型,如SimGNN和HGNN,这些模型在代码相似性分析任务中表现出色。此外,该数据集还启发了许多后续研究,例如跨平台二进制代码匹配、编译器优化选项对代码相似性的影响分析等。这些工作进一步拓展了图神经网络在软件工程和网络安全领域的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作