API calls for malware detection

Name: API calls for malware detection
Creator: 德国帕绍大学, 冰岛雷克雅未克大学
Published: 2025-02-18 21:51:56
License: 暂无描述

arXiv2025-02-18 更新2025-02-20 收录

下载链接：

https://zenodo.org/records/11079764

下载链接

链接失效反馈

官方服务：

资源简介：

本研究创建了迄今为止最大的公开可用的API调用数据集，包含超过30万个恶意软件样本和1万个良性软件样本的API调用实例。数据集基于当前恶意软件和良性软件样本，未压缩大小超过550GB，可在Zenodo上获取。该数据集旨在解决当前机器学习模型在恶意软件检测中需要大量数据的需求，同时提供了一种轻量级的恶意软件检测模型，该模型基于API调用，无需考虑调用顺序，具有较高的准确性和可扩展性。

This study constructs the largest publicly available API call dataset to date, which includes API call instances from over 300,000 malicious software samples and 10,000 benign software samples. Based on current malicious and benign software specimens, the uncompressed size of this dataset exceeds 550 GB, and it is accessible on Zenodo. This dataset is designed to address the substantial data requirements of contemporary machine learning models for malware detection. Additionally, it provides a lightweight malware detection model that relies on API calls without the need to consider call order, boasting high accuracy and strong scalability.

提供机构：

德国帕绍大学, 冰岛雷克雅未克大学

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要基于对API调用的分析。研究者们与G DATA CyberDefense AG合作，收集了大量恶意软件样本，并从中提取了函数调用参数。这些样本被标注为良性或恶意活动，以确保数据集的多样性。在构建数据集时，研究者们采用了SHA值来唯一标识每个恶意和良性样本，以便于区分不同版本和变种的软件。此外，他们还在一个受控的虚拟环境中执行和监控每个恶意样本，以确保数据的安全性和精确性。最终，他们使用一个开源库模拟互联网连接，并记录了所有API调用，以构建每个样本的详细行为配置文件。

特点

该数据集具有以下特点：首先，它是目前公开可用的最大的API调用数据集之一，包含超过30万个恶意软件样本和1万个良性软件样本。其次，该数据集的构建过程注重多样性和全面性，涵盖了多种恶意软件家族，并包括来自现实世界机器的样本。最后，该数据集的标注方式基于恶意软件家族，而不是简单的类别标签，这有助于更好地分析和研究。

使用方法

使用该数据集的方法包括：首先，将每个函数调用映射到特征向量中的一个特征，其中每个位置代表该特定函数被调用的次数。其次，可以使用不同的模型，如随机森林，来训练和预测恶意软件。最后，研究者们还提供了一个开源的代码库，其中包含了数据集和代码的所有信息，以便于其他研究人员使用。

背景与挑战

背景概述

随着数字化时代的深入发展，恶意软件攻击已成为网络安全领域的一大威胁。传统的恶意软件检测方法往往基于代码特征，但随着多态恶意软件的出现，这些方法逐渐失效。为了应对这一挑战，Fellicious等人提出了一种基于API调用的恶意软件检测方法，该方法不依赖于API调用的顺序，通过分析API调用参数来识别恶意软件。为了支持这一研究，他们创建了一个包含超过30万个样本及其功能调用参数的公开数据集，并使用随机森林等机器学习算法进行行为分析，以识别API调用序列中的模式和异常。该数据集的发布为研究人员提供了宝贵的资源，推动了基于API调用的恶意软件检测技术的发展。

当前挑战

尽管基于API调用的恶意软件检测方法展现出巨大的潜力，但仍面临诸多挑战。首先，现有的公开数据集往往规模较小，缺乏多样性，难以涵盖现代恶意软件的复杂性和快速演变的特点。其次，构建一个大规模、多样化的数据集需要大量的资源和时间，且在数据标注过程中可能存在主观性和不一致性。此外，随着恶意软件的不断进化，检测模型需要不断更新和优化，以适应新的攻击手段和策略。最后，如何在保证检测准确性的同时，降低模型的复杂性和资源消耗，也是当前研究的重要方向。

常用场景

经典使用场景

在恶意软件检测领域，API calls for malware detection数据集被广泛应用于研究和开发高效的恶意软件检测系统。该数据集通过分析应用程序的API调用模式，而不考虑调用的顺序，从而实现轻量级的恶意软件检测。研究人员可以利用机器学习算法，如随机森林，来分析API调用的频率和模式，并从中提取区分良性和恶意活动的特征。这种无序的方法能够帮助早期识别和分类恶意软件家族，从而为网络安全提供有力的支持。

衍生相关工作

API calls for malware detection数据集的发布推动了相关研究的发展。基于该数据集，研究人员提出了多种轻量级的恶意软件检测模型，这些模型能够利用API调用的频率和模式来识别恶意软件。此外，数据集还促进了恶意软件检测方法的研究，如无序API调用分析方法、特征工程技术和轻量级模型设计。这些研究工作为开发高效、可扩展的恶意软件检测系统提供了理论基础和技术支持，推动了网络安全领域的进步。

数据集最近研究