c01dsnap/MaliciousPEs
收藏Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/c01dsnap/MaliciousPEs
下载链接
链接失效反馈官方服务:
资源简介:
---
license: other
---
# Dataset Description
Detailed description: [www.kaggle.com/competitions/malware-classification/overview/description](https://www.kaggle.com/competitions/malware-classification/overview/description)
Warning: this dataset is almost half a terabyte uncompressed! We have compressed the data using 7zip to achieve the smallest file size possible. Note that the rules do not allow sharing of the data outside of Kaggle, including bit torrent ([why not?](https://www.kaggle.com/wiki/ANoteOnTorrents)).
You are provided with a set of known malware files representing a mix of 9 different families. Each malware file has an Id, a 20 character hash value uniquely identifying the file, and a Class, an integer representing one of 9 family names to which the malware may belong:
* Ramnit
* Lollipop
* Kelihos_ver3
* Vundo
* Simda
* Tracur
* Kelihos_ver1
* Obfuscator.ACY
* Gatak
For each file, the raw data contains the hexadecimal representation of the file's binary content, without the PE header (to ensure sterility). You are also provided a metadata manifest, which is a log containing various metadata information extracted from the binary, such as function calls, strings, etc. This was generated using the IDA disassembler tool. Your task is to develop the best mechanism for classifying files in the test set into their respective family affiliations.
The dataset contains the following files:
* train.7z - the raw data for the training set (MD5 hash = 4fedb0899fc2210a6c843889a70952ed)
* trainLabels.csv - the class labels associated with the training set
* test.7z - the raw data for the test set (MD5 hash = 84b6fbfb9df3c461ed2cbbfa371ffb43)
* sampleSubmission.csv - a file showing the valid submission format
* dataSample.csv - a sample of the dataset to preview before downloading
This dataset is a large-scale malware classification dataset, containing approximately half a terabyte of uncompressed data, compressed using 7zip to reduce file size. The dataset includes known malware files belonging to 9 different families, each file having a unique 20-character hash value and an integer class representing its family. The raw data for each file is the hexadecimal representation of the files binary content, excluding the PE header to ensure sterility. Additionally, a metadata manifest is provided, which contains various metadata information extracted from the binary, such as function calls and strings, generated using the IDA disassembler tool. The dataset files include the raw data for the training set, class labels for the training set, raw data for the test set, a sample submission file, and a data sample.
提供机构:
c01dsnap
原始信息汇总
数据集描述
详细描述
该数据集包含一组已知的恶意软件文件,这些文件来自9个不同的家族。每个恶意软件文件都有一个唯一标识的20字符哈希值(Id)和一个代表其所属家族的整数(Class)。家族名称包括:
- Ramnit
- Lollipop
- Kelihos_ver3
- Vundo
- Simda
- Tracur
- Kelihos_ver1
- Obfuscator.ACY
- Gatak
每个文件的原始数据包含文件二进制内容的十六进制表示,不包括PE头(以确保无菌性)。此外,还提供了一个元数据清单,该清单包含从二进制文件中提取的各种元数据信息,如函数调用、字符串等,这些信息是通过IDA反汇编工具生成的。任务是开发最佳机制,将测试集中的文件分类到其各自的家族。
数据集文件
train.7z- 训练集的原始数据(MD5哈希 = 4fedb0899fc2210a6c843889a70952ed)trainLabels.csv- 训练集的类标签test.7z- 测试集的原始数据(MD5哈希 = 84b6fbfb9df3c461ed2cbbfa371ffb43)sampleSubmission.csv- 有效的提交格式示例文件dataSample.csv- 数据集的预览样本
搜集汇总
数据集介绍

构建方式
在恶意软件检测领域,数据集的构建需兼顾真实性与安全性。该数据集源自Kaggle竞赛,精心收集了九类恶意软件家族的样本,涵盖Ramnit、Lollipop等常见变种。每个样本均以唯一哈希值标识,并剥离了PE文件头以确保数据纯净性,同时通过IDA反汇编工具提取元数据日志,记录函数调用与字符串等关键特征,形成了训练集与测试集的完整架构。
特点
本数据集以其规模与深度著称,未压缩时容量接近半太字节,体现了恶意软件数据的海量特性。样本涵盖九大恶意软件家族,提供了丰富的分类场景;数据以十六进制原始二进制内容呈现,辅以结构化元数据,兼顾低层特征与高层语义信息。这种双重表征方式为模型训练提供了多维视角,有助于提升分类的精确性与鲁棒性。
使用方法
使用该数据集时,研究者需先解压7z格式的原始数据文件,结合trainLabels.csv中的标签进行监督学习。元数据日志可作为辅助特征,增强模型对恶意软件行为的理解。测试集用于评估分类性能,提交格式可参考sampleSubmission.csv。鉴于数据规模庞大,建议采用分布式计算或抽样预览方式,以优化实验效率与资源分配。
背景与挑战
背景概述
在网络安全领域,恶意软件分类是威胁检测与防御的核心任务之一。c01dsnap/MaliciousPEs数据集于2015年由Kaggle平台发布,作为恶意软件分类竞赛的数据基础,汇集了来自多个安全研究机构的贡献。该数据集聚焦于九类恶意软件家族,旨在通过机器学习方法提升恶意代码的家族归属识别精度,从而推动自动化威胁情报分析的发展。其构建基于真实的恶意软件样本,剔除了可移植可执行文件头以确保数据无菌性,同时提供了由IDA反汇编工具提取的元数据,为后续研究奠定了重要基础。
当前挑战
该数据集致力于解决恶意软件家族分类的挑战,其核心难点在于恶意代码的多样性与混淆技术导致的特征隐匿性,使得传统基于签名的检测方法效率低下。在构建过程中,数据规模接近半太字节,压缩与存储成为显著障碍;同时,为确保数据无菌性而移除PE文件头,可能损失部分结构信息,增加了特征提取的复杂性。此外,数据仅涵盖九个家族,样本分布的不均衡性可能影响分类模型的泛化能力,这些因素共同构成了该数据集在研究与实际应用中的主要挑战。
常用场景
经典使用场景
在恶意软件检测领域,c01dsnap/MaliciousPEs数据集为研究者提供了丰富的二进制文件样本,涵盖九种不同家族的恶意软件。该数据集的核心应用场景在于训练和评估机器学习模型,特别是针对恶意软件家族分类任务。通过分析去除了PE头的十六进制原始数据及IDA反汇编工具提取的元数据,研究者能够构建高效的特征工程和分类算法,以区分Ramnit、Lollipop等恶意软件变种,从而推动自动化恶意软件识别技术的发展。
解决学术问题
该数据集有效解决了恶意软件分类中的关键学术挑战,如高维特征提取、家族间相似性区分以及大规模数据处理问题。通过提供结构化标签和元数据,它支持监督学习方法的验证,促进了深度学习模型在二进制分析中的应用。其意义在于为学术界提供了标准化基准,加速了恶意软件检测算法的创新,并增强了网络安全的实证研究基础,对防范日益复杂的网络威胁具有深远影响。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括基于卷积神经网络的恶意软件图像表示分类、利用元数据增强的特征融合方法,以及迁移学习在跨家族检测中的应用。这些工作不仅优化了分类精度,还推动了恶意软件分析向自动化、智能化方向发展,为后续数据集如EMBER和SOREL-20M的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成



