PE-Malware-Dataset
收藏arXiv2022-10-29 更新2024-06-21 收录
下载链接:
https://github.com/DA-Proj/PE-Malware-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
PE-Malware-Dataset是由工程与技术大学计算机科学系创建的多特征数据集,专为Windows PE恶意软件分类设计。该数据集包含来自五个恶意软件家族的18,551个二进制样本,涵盖DLL列表、PE头和节的不同字段值等四个特征集。数据收集过程涉及从MalwareBazaar数据库下载样本,并通过VirusTotal服务进行标记。此数据集旨在支持静态恶意软件分析研究,通过提供丰富的特征数据,帮助研究人员开发和测试机器学习分类器,以提高恶意软件检测的准确性和效率。
The PE-Malware-Dataset is a multi-feature dataset created by the Department of Computer Science, University of Engineering and Technology, specifically designed for Windows PE malware classification. This dataset contains 18,551 binary samples from five malware families, covering four feature sets including DLL lists, different field values of PE headers and sections. The data collection process involves downloading samples from the MalwareBazaar database and labeling them via the VirusTotal service. This dataset aims to support static malware analysis research, providing rich feature data to help researchers develop and test machine learning classifiers, thereby improving the accuracy and efficiency of malware detection.
提供机构:
工程与技术大学计算机科学系(新校区)
创建时间:
2022-10-29
搜集汇总
数据集介绍

构建方式
在恶意软件分析领域,构建高质量数据集是推动机器学习模型发展的关键。PE-Malware-Dataset的构建过程始于从MalwareBazaar数据库通过API调用收集超过20,000个Windows PE文件样本,随后利用Python的pefile库提取PE结构特征。经过严格筛选,剔除头部信息错误或存在代码混淆的样本,最终保留18,551个有效样本。样本标签通过VirusTotal服务的API获取,采用多数投票机制,依据多个反病毒引擎的检测结果将样本归类为五大恶意软件家族,确保了标签的可靠性与一致性。
特点
该数据集的核心特点在于其多维特征表示与精细的家族分类。数据集涵盖四大静态分析特征集:导入的动态链接库列表、调用的API函数、PE头部字段值以及PE节区信息,共计14,414个特征维度。样本覆盖五大恶意软件家族,包括间谍软件、勒索软件、下载器、后门程序及通用恶意软件,分布均衡且具有代表性。特征设计聚焦于Windows PE文件的结构与行为模式,例如不同家族在DLL导入与API调用上呈现显著差异,为基于机器学习的分类模型提供了丰富的判别性信息。
使用方法
研究人员可利用该数据集进行静态恶意软件分析与分类模型开发。数据集以CSV格式提供,无需专用工具即可直接读取,便于集成到各类机器学习流程中。使用者可分别或联合利用四个特征集,构建特征工程与分类算法,例如通过DLL与API序列训练序列模型,或基于PE头部与节区数值开发传统分类器。数据集的家族标签支持多分类任务,同时其原始特征也适用于无监督学习与异常检测。公开的GitHub存储库确保了数据可访问性,助力网络安全领域的算法比较与性能评估。
背景与挑战
背景概述
在网络安全领域,恶意软件检测一直是核心研究议题,尤其是针对Windows平台的可移植可执行文件分析。PE-Malware-Dataset由巴基斯坦拉合尔工程技术大学的研究团队于2022年创建,旨在为静态恶意软件分类提供多特征数据集。该数据集汇集了18,551个二进制样本,涵盖间谍软件、勒索软件、下载器、后门和通用恶意软件五大类别,并提取了动态链接库列表、应用程序接口函数调用、PE文件头及节区信息四类特征。通过整合VirusTotal的多引擎标注与多数投票机制,该数据集为机器学习模型训练提供了标准化基准,显著降低了研究人员在样本收集与特征工程上的时间成本,推动了静态恶意分析领域的方法创新与模型优化。
当前挑战
该数据集致力于解决Windows PE恶意软件分类的挑战,其核心在于如何从静态特征中准确识别不断演变的恶意代码家族。具体挑战包括:恶意软件常采用代码混淆、多态变形等技术规避检测,导致特征提取的完整性受损;不同家族间的特征重叠度高,如通用DLL调用行为相似,增加了分类模型的区分难度。在构建过程中,研究团队面临样本筛选的复杂性,需剔除PE头信息缺失或值错误的无效样本,同时避免混淆代码的干扰;此外,依赖VirusTotal进行标注时,不同反病毒引擎的分类结果存在分歧,需通过多数投票机制整合标签,但可能引入标注噪声,影响数据集的可靠性。
常用场景
经典使用场景
在网络安全研究领域,静态恶意软件分析是识别恶意程序行为特征的基础方法。PE-Malware-Dataset作为多特征数据集,其经典使用场景聚焦于训练机器学习分类器对Windows便携式可执行文件进行家族分类。研究者利用该数据集提供的动态链接库导入列表、应用程序接口调用序列、PE头部字段及区段信息等四类静态特征,构建能够区分间谍软件、勒索软件、下载器、后门程序及通用恶意软件的分类模型。这种基于特征工程的方法避免了动态分析的环境依赖,为恶意软件检测提供了高效可扩展的技术路径。
实际应用
在实际应用层面,PE-Malware-Dataset为安全产品开发提供了重要支撑。基于该数据集训练的检测模型可集成于终端安全防护系统,实现对新出现恶意软件的快速识别与拦截。企业安全团队可利用其特征模式构建威胁情报分析平台,通过比对PE文件特征实现攻击溯源和家族关联分析。在网络安全教育领域,该数据集成为恶意软件分析课程的核心教学资源,帮助学生理解Windows可执行文件结构与恶意行为特征之间的关联。这些应用不仅提升了实际防护能力,也加速了安全人才的培养进程。
衍生相关工作
该数据集的发布催生了系列经典研究工作。在特征工程方向,研究者基于其多特征架构开发了融合注意力机制的神经网络模型,显著提升了分类精度。在迁移学习领域,该数据集被用作预训练数据源,通过特征迁移增强小样本恶意软件检测模型的性能。部分研究进一步扩展了特征维度,将API调用序列转化为行为图谱进行图神经网络分析。另有工作聚焦于对抗样本生成,利用数据集特征空间探索恶意软件变种的生成机制。这些衍生研究共同推动了机器学习在恶意软件检测领域的理论深化与方法创新。
以上内容由遇见数据集搜集并总结生成



