VirusShare, VirusSample

Name: VirusShare, VirusSample
Creator: 格贝兹技术大学计算机工程系
Published: 2022-08-04 18:10:15
License: 暂无描述

arXiv2022-08-04 更新2024-06-21 收录

下载链接：

https://github.com/khas-ccip/api sequences malware datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了两个新的恶意软件家族分类基准静态API调用数据集：VirusShare和VirusSample。VirusShare包含14,616个样本，VirusSample包含9,795个样本，均通过提取恶意软件样本的MD5哈希码和API调用序列构建。数据集创建过程中，利用Google Cloud Platform克服了VirusTotal API的每日请求限制，提高了数据收集效率。这些数据集主要用于机器学习和深度学习模型在恶意软件检测和分类领域的测试和验证，旨在解决恶意软件日益增长的需求和复杂性问题。

This study introduces two novel benchmark static API call datasets for malware family classification: VirusShare and VirusSample. VirusShare comprises 14,616 samples, while VirusSample contains 9,795 samples, both of which are constructed by extracting the MD5 hash values and API call sequences of malware samples. During the dataset creation process, Google Cloud Platform was utilized to circumvent the daily request limits of the VirusTotal API, thereby improving the efficiency of data collection. These datasets are primarily intended for testing and validating machine learning and deep learning models in the fields of malware detection and classification, aiming to address the escalating demands and complexity issues associated with malware.

提供机构：

格贝兹技术大学计算机工程系

创建时间：

2021-11-30

搜集汇总

数据集介绍

构建方式

在构建VirusShare和VirusSample数据集时，研究团队首先从VirusShare和VirusSample两个恶意软件库中提取了恶意软件样本的MD5哈希值。这些哈希值随后被分组并提交至VirusTotal平台，通过其超过70种防病毒扫描器来识别恶意软件家族。接着，使用Python模块PEfile从恶意软件的可移植可执行文件（PE文件）头中提取API调用。这一过程主要依赖于静态分析技术，确保API调用序列的获取不依赖于恶意软件的实际执行。最终，数据集以CSV格式存储，包含恶意软件样本的MD5哈希值、API调用及其所属的恶意软件家族。

特点

VirusShare和VirusSample数据集的主要特点在于其包含了14,616和9,795个恶意软件样本，分别来自VirusShare和VirusSample库。这些数据集不仅提供了恶意软件的MD5哈希值和API调用序列，还详细标注了每个样本的恶意软件家族。此外，数据集的构建过程中采用了Google Cloud Platform的多用户数据收集方法，有效克服了VirusTotal每日API请求限制，确保了数据集的时效性和多样性。

使用方法

研究人员可以使用VirusShare和VirusSample数据集进行恶意软件家族分类的实验和模型训练。数据集中的API调用序列可以作为特征输入到各种机器学习和深度学习模型中，如随机森林、支持向量机、极端梯度提升、基于梯度的提升、长短期记忆网络以及预训练的Transformer模型。通过这些模型，研究人员可以评估和比较不同算法在恶意软件检测和分类任务中的性能，从而推动该领域的技术进步。

背景与挑战

背景概述

随着恶意软件及其事件的日益增多，传统的防病毒系统和恶意软件检测方法已显得力不从心。在此背景下，机器学习技术成为安全专家检测恶意软件并确定其家族的主要手段。许多静态、动态及混合分析技术被提出以应对这一挑战。VirusShare和VirusSample数据集由Gebze技术大学和Kadir Has大学的研究人员于近期创建，旨在通过静态分析技术提取API调用，这些调用是机器/深度学习模型中代表恶意软件行为的最常用特征。这两个数据集分别包含14,616和9,795个样本，为研究人员提供了丰富的资源，以测试和验证其在恶意软件家族分类领域的算法和方法。

当前挑战

VirusShare和VirusSample数据集在构建过程中面临多项挑战。首先，恶意软件的快速增长和持续演化使得传统的防病毒扫描器难以应对，因此需要最新的恶意软件数据集来克服这一缺陷。其次，从VirusShare和VirusSample获取恶意软件样本的过程复杂，需通过MD5哈希码进行识别，并利用VirusTotal服务确定恶意软件家族。此外，VirusTotal的API每日请求限制为500次，这限制了数据集的构建效率。为解决这一问题，研究人员利用Google Cloud Platform的多用户环境，通过分配不同IP地址来增加分析次数，从而加速数据收集过程。

常用场景

经典使用场景

在网络安全领域，VirusShare和VirusSample数据集的经典使用场景主要集中在恶意软件家族分类任务中。通过提取恶意软件样本的静态API调用序列，研究人员可以利用这些数据集训练机器学习和深度学习模型，以识别和分类不同家族的恶意软件。这种基于API调用的静态分析方法能够有效捕捉恶意软件的行为特征，从而提高分类的准确性和效率。

衍生相关工作

VirusShare和VirusSample数据集的发布催生了一系列相关研究工作。例如，研究人员基于这些数据集开发了多种机器学习和深度学习模型，如随机森林、支持向量机、极端梯度提升（XGBoost）和长短期记忆网络（LSTM），用于恶意软件家族分类。此外，这些数据集还启发了对预训练Transformer模型（如BERT和CANINE）在恶意软件检测中的应用研究。通过这些衍生工作，研究人员不仅提升了恶意软件检测的准确性，还推动了相关技术的发展和创新。

数据集最近研究