VirusShare, VirusSample
收藏arXiv2022-08-04 更新2024-06-21 收录
下载链接:
https://github.com/khas-ccip/api sequences malware datasets
下载链接
链接失效反馈资源简介:
本研究介绍了两个新的恶意软件家族分类基准静态API调用数据集:VirusShare和VirusSample。VirusShare包含14,616个样本,VirusSample包含9,795个样本,均通过提取恶意软件样本的MD5哈希码和API调用序列构建。数据集创建过程中,利用Google Cloud Platform克服了VirusTotal API的每日请求限制,提高了数据收集效率。这些数据集主要用于机器学习和深度学习模型在恶意软件检测和分类领域的测试和验证,旨在解决恶意软件日益增长的需求和复杂性问题。
This study introduces two novel static API call classification benchmark datasets for malware family categorization: VirusShare and VirusSample. VirusShare contains 14,616 samples, while VirusSample includes 9,795 samples. Both datasets are constructed by extracting MD5 hash codes and API call sequences from malware samples. During the dataset creation process, Google Cloud Platform was employed to overcome the daily request restrictions of the VirusTotal API, which improved the efficiency of data collection. These datasets are primarily used for testing and validating machine learning and deep learning models in the fields of malware detection and classification, aiming to address the growing demand and complexity issues of malware.
提供机构:
格贝兹技术大学计算机工程系
创建时间:
2021-11-30
AI搜集汇总
数据集介绍

构建方式
在构建VirusShare和VirusSample数据集时,研究团队首先从VirusShare和VirusSample两个恶意软件库中提取了恶意软件样本的MD5哈希值。这些哈希值随后被分组并提交至VirusTotal平台,通过其超过70种防病毒扫描器来识别恶意软件家族。接着,使用Python模块PEfile从恶意软件的可移植可执行文件(PE文件)头中提取API调用。这一过程主要依赖于静态分析技术,确保API调用序列的获取不依赖于恶意软件的实际执行。最终,数据集以CSV格式存储,包含恶意软件样本的MD5哈希值、API调用及其所属的恶意软件家族。
特点
VirusShare和VirusSample数据集的主要特点在于其包含了14,616和9,795个恶意软件样本,分别来自VirusShare和VirusSample库。这些数据集不仅提供了恶意软件的MD5哈希值和API调用序列,还详细标注了每个样本的恶意软件家族。此外,数据集的构建过程中采用了Google Cloud Platform的多用户数据收集方法,有效克服了VirusTotal每日API请求限制,确保了数据集的时效性和多样性。
使用方法
研究人员可以使用VirusShare和VirusSample数据集进行恶意软件家族分类的实验和模型训练。数据集中的API调用序列可以作为特征输入到各种机器学习和深度学习模型中,如随机森林、支持向量机、极端梯度提升、基于梯度的提升、长短期记忆网络以及预训练的Transformer模型。通过这些模型,研究人员可以评估和比较不同算法在恶意软件检测和分类任务中的性能,从而推动该领域的技术进步。
背景与挑战
背景概述
随着恶意软件及其事件的日益增多,传统的防病毒系统和恶意软件检测方法已显得力不从心。在此背景下,机器学习技术成为安全专家检测恶意软件并确定其家族的主要手段。许多静态、动态及混合分析技术被提出以应对这一挑战。VirusShare和VirusSample数据集由Gebze技术大学和Kadir Has大学的研究人员于近期创建,旨在通过静态分析技术提取API调用,这些调用是机器/深度学习模型中代表恶意软件行为的最常用特征。这两个数据集分别包含14,616和9,795个样本,为研究人员提供了丰富的资源,以测试和验证其在恶意软件家族分类领域的算法和方法。
当前挑战
VirusShare和VirusSample数据集在构建过程中面临多项挑战。首先,恶意软件的快速增长和持续演化使得传统的防病毒扫描器难以应对,因此需要最新的恶意软件数据集来克服这一缺陷。其次,从VirusShare和VirusSample获取恶意软件样本的过程复杂,需通过MD5哈希码进行识别,并利用VirusTotal服务确定恶意软件家族。此外,VirusTotal的API每日请求限制为500次,这限制了数据集的构建效率。为解决这一问题,研究人员利用Google Cloud Platform的多用户环境,通过分配不同IP地址来增加分析次数,从而加速数据收集过程。
常用场景
经典使用场景
在网络安全领域,VirusShare和VirusSample数据集的经典使用场景主要集中在恶意软件家族分类任务中。通过提取恶意软件样本的静态API调用序列,研究人员可以利用这些数据集训练机器学习和深度学习模型,以识别和分类不同家族的恶意软件。这种基于API调用的静态分析方法能够有效捕捉恶意软件的行为特征,从而提高分类的准确性和效率。
衍生相关工作
VirusShare和VirusSample数据集的发布催生了一系列相关研究工作。例如,研究人员基于这些数据集开发了多种机器学习和深度学习模型,如随机森林、支持向量机、极端梯度提升(XGBoost)和长短期记忆网络(LSTM),用于恶意软件家族分类。此外,这些数据集还启发了对预训练Transformer模型(如BERT和CANINE)在恶意软件检测中的应用研究。通过这些衍生工作,研究人员不仅提升了恶意软件检测的准确性,还推动了相关技术的发展和创新。
数据集最近研究
最新研究方向
在恶意软件检测领域,VirusShare和VirusSample数据集的最新研究方向主要集中在利用静态API调用进行恶意软件家族分类。随着恶意软件的不断演变和复杂化,传统的检测方法面临挑战,因此研究人员转向机器学习和深度学习技术,以提取和分析恶意软件的行为特征。这些技术通过分析API调用序列,能够更准确地识别和分类恶意软件家族。此外,研究还探索了如何利用云平台提高数据收集效率,通过多用户协作和分布式计算,克服了VirusTotal API的每日请求限制,从而构建了更全面和多样化的恶意软件数据集。这些进展不仅提升了恶意软件检测的准确性,还为该领域的进一步研究提供了坚实的基础。
相关研究论文
- 1Benchmark Static API Call Datasets for Malware Family Classification格贝兹技术大学计算机工程系 · 2022年
以上内容由AI搜集并总结生成



