FCG-RFD

github2026-03-22 更新2026-04-17 收录

下载链接：

https://github.com/CyberSaR-KAUST/Ransomware-Malware-Family-Detection-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

FCG-RFD数据集专为勒索软件检测和分类而设计，包含使用功能调用图(FCG)表示的真实样本。支持机器学习和深度学习，可实现实时勒索软件家族识别。

The FCG-RFD dataset is specifically designed for ransomware detection and classification, and contains real-world samples represented by Function Call Graphs (FCG). It supports both machine learning and deep learning, enabling real-time identification of ransomware families.

创建时间：

2026-03-22

原始信息汇总

数据集概述

数据集名称

Ransomware Family Detection Dataset (FCG-RFD)

数据集简介

FCG-RFD 是一个用于勒索软件检测和家族分类的真实世界数据集。其样本使用函数调用图进行表示，支持机器学习和深度学习，并支持实时勒索软件家族识别。

数据集规模

类别	数量
勒索软件样本	8,095
良性样本	8,020
总计	16,115

包含的勒索软件家族

Locky
WannaCry
CryptoWall
TeslaCrypt
Hive
Satana
Rex
Ako
Pyso

数据来源与处理方法

数据收集来源:
- VirusShare
- MalwareBazaar
- VirusSample
分析工具:
- VirusTotal
- Cuckoo Sandbox
特征提取方法:
- 函数调用图

引用信息

若在研究中使用了本数据集，请引用： bibtex @INPROCEEDINGS{10600651, author={Hadi, Hassan Jalil and Cao, Yue and Ahmad, Naveed and Alshara, Mohammed Ali}, booktitle={2024 8th International Conference on Cryptography, Security and Privacy (CSP)}, title={Ransomware Defense Empowered: Deep Learning for Real-Time Family Identification with a Proprietary Dataset}, year={2024}, volume={}, number={}, pages={77-83}, keywords={Privacy;Computer viruses;Government;Benchmark testing;Rendering (computer graphics);Real-time systems;Ransomware;Malware;Ransomware Detection;Function Call Graph;Family Classification;Deep learning;Dataset}, doi={10.1109/CSP62567.2024.00020}}

维护者

CyberSar Lab https://cybersar.kaust.edu.sa/

搜集汇总

数据集介绍

构建方式

在网络安全领域，针对勒索软件的精准识别与家族分类一直是研究热点。FCG-RFD数据集的构建过程体现了严谨的实证研究范式。研究团队从VirusShare、MalwareBazaar和VirusSample等权威恶意软件样本库中收集了原始可执行文件，确保了数据来源的真实性与广泛性。随后，利用VirusTotal和Cuckoo沙箱等专业分析工具对样本进行行为分析与验证，以准确区分勒索软件与良性软件。核心特征提取环节采用了函数调用图技术，将每个样本的复杂内部结构抽象为图表示，从而为后续的机器学习与深度学习模型提供了结构化的、富含语义信息的输入数据。

使用方法

研究人员可利用FCG-RFD数据集开展多层次的网络安全研究。在基础任务层面，该数据集可直接用于训练和评估二元分类模型，以区分样本是否为勒索软件。进阶应用则聚焦于多分类场景，即根据提取的函数调用图特征，对已知的勒索软件进行家族归属判定。深度学习社区，特别是图神经网络领域的研究者，可以此数据集为基准，开发新型的图表示学习或图分类算法，以提升模型对恶意软件结构特征的感知与理解能力。在使用时，建议遵循标准的机器学习流程，包括图特征预处理、模型训练、验证与测试，并参考提供的学术文献以复现基准结果。

背景与挑战

背景概述

随着勒索软件攻击的全球性蔓延，网络安全领域亟需高效精准的检测与分类方法。FCG-RFD数据集由CyberSar实验室于2024年创建，旨在通过函数调用图（FCG）技术，为勒索软件的实时检测与家族分类提供真实世界的数据支持。该数据集汇集了来自VirusShare、MalwareBazaar等平台的恶意软件样本，涵盖了Locky、WannaCry等九种主流勒索软件家族，并包含大量良性样本作为对照。其核心研究问题聚焦于利用图结构数据提升勒索软件识别的准确性与时效性，为基于机器学习和深度学习的恶意代码分析奠定了重要基础，推动了网络安全防御技术的演进。

当前挑战

在勒索软件检测领域，恶意代码的变种与混淆技术不断演进，导致传统特征提取方法难以有效区分新型威胁。FCG-RFD数据集面临的挑战包括：如何从复杂的函数调用图中提取具有判别性的拓扑特征，以应对勒索软件家族的动态演化；在构建过程中，需克服样本收集的合法性与完整性难题，确保数据来源的真实可靠，同时处理大规模图数据的高维稀疏性，优化存储与计算效率。这些挑战要求研究者在图神经网络与特征工程方面进行深入探索，以实现鲁棒且可扩展的检测模型。

常用场景

经典使用场景

在网络安全与恶意软件分析领域，FCG-RFD数据集为勒索软件的检测与家族分类提供了关键支持。该数据集通过函数调用图（FCG）对真实世界的恶意样本进行结构化表征，使得研究人员能够利用机器学习与深度学习模型，对勒索软件进行高效识别与分类。其经典应用场景包括构建端到端的检测系统，通过分析FCG的拓扑特征与节点属性，实现从原始二进制代码到家族归属的自动化映射，为实时防御机制奠定数据基础。

解决学术问题

FCG-RFD数据集主要解决了勒索软件研究中样本稀缺、表征复杂与家族细粒度区分困难等学术挑战。传统方法往往依赖静态或动态分析，难以捕捉程序间的结构依赖关系；而FCG-RFD通过引入函数调用图，将代码执行逻辑转化为图结构数据，使得图神经网络等先进模型得以应用。这不仅提升了分类的准确性与可解释性，还为勒索软件演化规律、家族溯源等前沿问题提供了标准化基准，推动了恶意软件分析向数据驱动范式的转变。

实际应用

在实际网络安全运营中，FCG-RFD数据集被广泛应用于构建企业级勒索软件防护系统。安全厂商可基于该数据集训练模型，集成于终端防护平台或网络流量分析工具中，实现对新出现勒索软件变种的实时预警与家族归属判定。此外，该数据集支持威胁情报共享，通过标准化FCG特征，促进不同组织间的恶意样本比对与协同防御，有效提升了对Locky、WannaCry等流行勒索家族的整体应对能力。

数据集最近研究