HiGraph
收藏arXiv2025-09-02 更新2025-09-05 收录
下载链接:
https://higraph.org
下载链接
链接失效反馈官方服务:
资源简介:
HiGraph是一个大规模的分层图数据集,专为恶意软件分析而设计。它包含超过595K个应用程序,每个应用程序都被表示为一个全局函数调用图(FCG),其中嵌套了超过2亿个局部控制流图(CFG)。这种双层结构明确地捕获了程序之间的相互依赖关系和程序内部的逻辑。HiGraph提供了一个粒度化的分层数据集,具有时空一致性,为构建和评估下一代恶意软件检测器提供了一个坚实的基础。
HiGraph is a large-scale hierarchical graph dataset designed specifically for malware analysis. It contains over 595,000 applications, each represented as a global Function Call Graph (FCG) that nests more than 200 million local Control Flow Graphs (CFGs). This two-tiered structure explicitly captures both inter-program dependencies and internal program logic. HiGraph provides a granular hierarchical dataset with spatio-temporal consistency, serving as a solid foundation for constructing and evaluating next-generation malware detectors.
提供机构:
University of Technology Sydney, Australia; Yunnan University, Kunming, China; University of New South Wales, Sydney, Australia
创建时间:
2025-09-02
原始信息汇总
HiGraph: 大规模分层图数据集概述
数据集简介
HiGraph是一个用于恶意软件分析的大规模分层图数据集,通过函数调用图和控制流图对应用程序进行建模。
核心特征
- 分层图结构:每个应用程序建模为分层图,包含局部控制流图(CFG)和全局函数调用图(FCG)
- 规模:包含超过200M个控制流图和595K个函数调用图
- 时间跨度:覆盖2012年至2022年共11年的样本
- 压缩大小:6.17GB
- 许可证:CC-BY-NC-SA(知识共享署名-非商业性使用-相同方式共享)
结构组成
- 程序级别:函数调用图(FCG)捕获全局程序结构和函数间关系
- 函数级别:控制流图(CFG)表示详细的函数内逻辑和控制流
- 应用领域:提供丰富的语义信息,支持高级恶意软件检测和分类
获取方式
- Hugging Face平台:https://huggingface.co/datasets/higraph/HiGraph
- GitHub仓库:https://github.com/higraph/HiGraph
最新更新
- 2025年5月16日:初始版本发布,包含超过200M个CFG和595K个FCG
未来计划
- 定期更新新样本和功能
- 集成更先进的图分析工具
- 社区贡献和合作
搜集汇总
数据集介绍

构建方式
HiGraph数据集的构建采用了严谨的双阶段流程,首先从AndroZoo存储库中系统性地收集了2012年至2022年间595,211个Android应用程序,并通过VirusTotal学术API获取检测报告,采用不少于15个引擎检测作为恶意软件判定阈值,辅以AVClass2进行细粒度家族分类,确保了标注的可靠性。随后利用Androguard工具进行反编译,提取层次化图结构:每个应用构建一个全局函数调用图(FCG),其中每个节点对应局部控制流图(CFG),并应用高灵敏度过滤器保留安全相关的API调用边,最终形成包含201M个CFG和595K个FCG的多层级表示。
特点
HiGraph的核心特征体现在其前所未有的规模与层次化架构上,作为最大的公开恶意软件分析图数据集,它通过嵌套的FCG-CFG双层级结构精准捕获了软件内高阶功能交互与低阶指令逻辑间的语义关联。该数据集显著区分于传统扁平图表示,其FCG平均节点数达741.10,CFG平均节点数为12.17,反映了软件控制流的固有稀疏性;同时恶意软件表现出更高的图密度与中心性指标,如PageRank值和循环复杂度显著高于良性软件,揭示了恶意代码在结构上的集中化与复杂化特征。
使用方法
HiGraph支持多种图神经网络模型在恶意软件检测与分类任务中的应用,用户可通过其提供的11维节点特征向量(涵盖指令语义、内容度量和结构属性)进行模型训练。对于层次化学习,可分别对CFG和FCG使用GNN编码器提取特征,并通过融合机制整合多层级表示;评估时需遵循时间一致性分割策略(70/15/15比例),以Macro F1和PR-AUC作为核心指标验证模型抗概念漂移能力。数据集提供完整的处理管道与可视化工具,支持在higraph.org网站进行交互式探索和结构分析。
背景与挑战
背景概述
HiGraph作为恶意软件分析领域首个大规模分层图数据集,由悉尼科技大学与云南大学联合团队于2024年构建。该数据集突破了传统单层图表示的局限,通过595,211个函数调用图嵌套2.01亿个控制流图的双层结构,精准刻画软件的高层功能交互与底层指令逻辑间的语义关联。其时空一致性标注与真实恶意软件分布比例,为图神经网络在对抗代码混淆和演化威胁方面提供了基准支撑,显著推动了可解释AI在网络安全领域的应用深度。
当前挑战
HiGraph致力于解决恶意软件检测中因代码演化与混淆导致的模型泛化难题,其核心挑战在于如何从分层图中提取跨版本持久性行为模式。构建过程中需克服三大挑战:一是从原始字节码中精准提取跨层级图结构并保持语义一致性,二是平衡超过10年时间跨度的样本分布以抑制概念漂移,三是设计兼顾敏感API调用关系与基础块指令语义的特征工程方案以支撑多粒度分析。
常用场景
经典使用场景
在恶意软件分析领域,HiGraph数据集被广泛应用于构建和评估基于分层图神经网络的检测模型。其经典使用场景包括通过整合控制流图(CFG)和函数调用图(FCG)的双层结构,捕捉恶意代码的跨层级语义模式,例如识别勒索软件中文件发现、加密和通信等持久性行为骨架,有效应对代码混淆和演化带来的检测挑战。
实际应用
在实际应用中,HiGraph服务于下一代恶意软件检测系统的开发,其分层结构能够识别现实环境中恶意代码的演化模式,例如广告软件和下载器在API调用与控制流层面的异常密度。安全企业可基于该数据集训练动态检测引擎,实现对新型威胁的早期预警与分类,增强移动生态系统的防御能力。
衍生相关工作
HiGraph催生了多项分层图学习的关键研究,例如专为其设计的Hi-GNN模型,该模型通过融合CFG与FCG编码器显著提升了检测精度与时间鲁棒性。相关工作还扩展至恶意软件家族演化分析、API模式挖掘等领域,为图神经网络在网络安全中的可解释性与适应性研究提供了基础支撑。
以上内容由遇见数据集搜集并总结生成



