A Benchmark API Call Dataset for Windows PE Malware Classification

Name: A Benchmark API Call Dataset for Windows PE Malware Classification
Creator: 土耳其科学技术研究委员会-BILGEM 科贾埃利研究所
Published: 2021-02-22 02:42:46
License: 暂无描述

arXiv2021-02-22 更新2024-06-21 收录

下载链接：

https://github.com/ocatak/malware_api_class

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘A Benchmark API Call Dataset for Windows PE Malware Classification’，由土耳其科学技术研究委员会-BILGEM 科贾埃利研究所创建。数据集包含7107种不同恶意软件的API调用记录，涵盖病毒、后门、木马等多种恶意软件家族。创建过程涉及在隔离的沙箱环境中运行恶意软件，记录Windows操作系统API调用，并将分析结果转换为可用于不同分类算法和方法的格式。该数据集主要应用于基于行为的恶意软件分析和分类，旨在通过分析恶意软件的API调用序列，提高恶意软件检测和分类的准确性。

This dataset, named "A Benchmark API Call Dataset for Windows PE Malware Classification", was developed by the TÜBİTAK BILGEM Kocaeli Institute. It contains API call records of 7,107 distinct malware samples, covering multiple malware families such as viruses, backdoors, Trojans and others. The dataset construction process involved running malware samples in isolated sandbox environments, recording Windows operating system API calls, and converting the analysis results into a format compatible with various classification algorithms and approaches. This dataset is primarily applied to behavior-based malware analysis and classification, aiming to improve the accuracy of malware detection and classification by analyzing the API call sequences of malicious software.

提供机构：

土耳其科学技术研究委员会-BILGEM 科贾埃利研究所

创建时间：

2019-05-06

搜集汇总

数据集介绍

构建方式

在网络安全领域，恶意软件的动态分析依赖于对操作系统API调用序列的捕获与解读。本研究构建了一个面向Windows PE恶意软件分类的基准API调用数据集。首先，从GitHub等公开来源收集了超过20,000个恶意软件样本，并利用VirusTotal服务通过MD5哈希值获取其家族标签，最终筛选出7107个样本，涵盖木马、后门、蠕虫等8大主流家族。随后，将这些样本逐一在配置了Windows 7操作系统的Cuckoo沙箱环境中运行，记录其所有Windows API调用行为。分析结果经处理后，仅保留至少包含10种不同API调用的样本，并将观察到的342种API调用映射为0至341的整数索引，最终以CSV格式存储，形成结构清晰、易于使用的基准数据集。

使用方法

本数据集专为基于行为的恶意软件分类研究而设计，可直接用于多种机器学习与深度学习模型。用户无需额外软件即可通过CSV文件读取数据，每一行代表一个恶意软件样本的API调用序列。研究者可将其作为序列数据输入循环神经网络（如LSTM）或卷积神经网络（如CNN）进行家族分类；亦可提取统计特征，结合传统机器学习算法（如随机森林、支持向量机）进行建模。数据集已公开在GitHub上，便于复现与对比实验。使用时需注意，API调用序列的长度可能不同，建议进行填充或截断处理以适应模型输入要求。

背景与挑战

背景概述

在网络安全领域，恶意软件检测与分类一直是研究的热点与难点，尤其是针对Windows操作系统上的便携式可执行文件（PE）型恶意软件。传统的基于签名的检测方法在面对多态和变形恶意软件时显得力不从心，这类恶意软件能够通过改变自身代码和行为模式来规避检测。为应对这一挑战，Ferhat Ozgur Catak与Ahmet Faruk Yazi于2021年提出了一个基准API调用数据集，旨在为基于动态行为的Windows PE恶意软件分类提供标准化评估平台。该数据集由土耳其科学技术研究理事会（TUBITAK-BILGEM）网络安全研究所与伊斯坦布尔城市大学共同创建，核心研究问题在于如何通过记录恶意软件在隔离沙箱环境中的Windows API调用序列，实现对其所属家族（如木马、后门、蠕虫等）的精确分类。数据集涵盖了7107个恶意软件样本，其发布填补了行为分析领域缺乏基准数据集的空白，为深度学习与机器学习模型的性能验证提供了重要基础，对推动动态恶意软件分析技术的发展具有深远影响。

当前挑战

该数据集面临的挑战首先体现在所解决的领域问题上：恶意软件，尤其是变形恶意软件，能够通过插入无意义操作码或改变API调用顺序来混淆其真实行为，使得基于静态特征或简单序列匹配的分类方法难以奏效。因此，如何从动态API调用序列中提取鲁棒的行为模式，以区分不同家族间的细微差异，成为核心难题。其次，在数据集构建过程中，挑战同样显著：研究人员需从GitHub等来源收集大量恶意软件样本，并依赖VirusTotal服务中多达67种不同反病毒引擎的投票结果来标注家族标签，然而不同引擎对同一样本的分类可能存在分歧，甚至部分引擎无法检测某些恶意软件，这给标签的准确性带来不确定性。此外，在Cuckoo沙箱环境中执行恶意软件时，需确保分析环境的隔离性与真实性，同时记录下342种不同类型的API调用，并筛选出至少包含10次调用的有效序列，这一过程涉及大规模数据处理与质量控制，对实验设计与资源管理提出了较高要求。

常用场景

经典使用场景

在Windows可执行文件（PE）恶意软件检测领域，操作系统API调用序列作为动态行为分析的核心线索，已成为识别恶意代码的关键技术路径。该数据集基于Cuckoo沙箱环境对7107个恶意样本进行隔离执行，系统捕获了342种不同的Windows API调用，并依据VirusTotal多引擎检测结果将样本归为木马、后门、蠕虫等8大主流家族。这一基准数据集的构建，为研究者提供了标准化的行为特征序列，使得基于序列建模的恶意软件分类任务得以在统一框架下开展，尤其适用于评估深度学习模型对API调用时序模式的捕获能力。

解决学术问题

该数据集有效填补了动态恶意软件分析领域长期缺乏标准化基准数据的空白。传统研究多依赖私有数据集或小规模样本，导致模型性能难以横向比较。通过提供大规模、多家族、带标注的API调用序列，该数据集解决了恶意软件家族分类中的可重复性与可比性问题。研究者得以深入探究变形恶意软件如何通过插入冗余API调用来改变行为签名，进而验证序列模型（如LSTM、CNN）对恶意行为本质模式的鲁棒性。其意义在于推动了行为检测从特征工程向端到端序列学习的范式转变，为构建更通用的恶意软件检测框架奠定了数据基础。

实际应用

在实际网络安全防御体系中，该数据集支撑了自动化沙箱分析系统的效能提升。安全运营中心可基于该数据集训练实时恶意软件分类模型，将未知样本的API调用序列与已知家族行为模式进行比对，实现快速预警与精准归类。例如，企业端点防护产品可集成基于该数据集的轻量级分类器，在沙箱分析完成后立即判定样本属于下载器、间谍软件或勒索软件，从而触发相应的隔离策略。此外，该数据集还被用于检测零日恶意软件变种，因为其核心API调用模式往往与已知家族存在高度相关性。

数据集最近研究