RawMal-TF

Name: RawMal-TF
Creator: 捷克技术大学信息学院, 捷克布拉格, 捷克; 圣何塞州立大学计算机科学系, 加利福尼亚州圣何塞, 美国
Published: 2025-06-30 22:38:01
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://github.com/CS-and-AI/RawMal-TF

下载链接

链接失效反馈

官方服务：

资源简介：

RawMal-TF是一个新型的恶意软件数据集，它不仅包括了恶意软件的原始二进制文件，还包括了从ClarAVy中集成的类型级标签和从二进制文件名解析的家族信息。数据集中包含了14种恶意软件类型和17种恶意软件家族。该数据集使用了基于静态分析的统一特征提取流程，特别是从可移植可执行文件头中提取特征，以支持高级分类任务。该数据集为未来研究先进的恶意软件检测和分类奠定了坚实的基础。

RawMal-TF is a novel malware dataset that includes not only the raw binary files of malware, but also type-level labels integrated from ClarAVy and family information parsed from binary filenames. The dataset covers 14 malware categories and 17 malware families. It adopts a unified feature extraction pipeline based on static analysis, specifically extracting features from Portable Executable (PE) headers to support advanced classification tasks. This dataset lays a solid foundation for future research on advanced malware detection and classification.

提供机构：

捷克技术大学信息学院, 捷克布拉格, 捷克; 圣何塞州立大学计算机科学系, 加利福尼亚州圣何塞, 美国

创建时间：

2025-06-30

原始信息汇总

RawMal-TF 数据集概述

📌 数据集简介

数据集专注于恶意软件分类研究，包含原始二进制文件与预提取的特征向量。
数据来源：EMBER、VirusShare、MalwareBazaar、VX Underground。
数据规模：超过160GB的Windows PE恶意软件样本。
样本分类：按恶意软件类型和家族分类。

📂 数据集结构

主要组成部分

原始PE文件
- 描述：恶意软件二进制文件，按类型和家族分类存放。
- 格式：Raw PE文件。
- 大小：约160GB。
特征向量
- 描述：从二进制文件中预提取的特征向量。
- 格式：JSONL文件。
- 大小：包含在数据集中。

🔖 标签粒度

类型分类：如蠕虫、木马、勒索软件等。
家族分类：如AgentTesla、Bladabindi、Xtrat等。

⬇️ 下载信息

分发方式：手动分发（因数据规模和敏感性）。
下载链接：Google Drive

🧬 特征向量详情

格式概述

每个特征向量存储为JSON对象，包含以下字段：
- sha256：二进制文件的SHA-256哈希（唯一标识符）。
- label：分类标签（1=恶意，0=良性）。
- histogram：字节直方图（256长度数组）。
- byteentropy：字节值与熵的扁平化2D直方图。
- strings：字符串元数据（总数、平均长度、熵等）。
- general：通用二进制属性（文件大小、虚拟大小等）。
- header：PE头字段（包括COFF和可选头值）。
- section：PE节信息（名称、大小、熵等）。
- imports：按DLL分组的导入函数字典。
- exports：导出符号列表（如存在）。
- datadirectories：PE数据目录（IAT、资源表等）。

📊 数据加载

加载逻辑基于原始Ember参考Jupyter笔记本。
示例脚本：load.py。
示例输出：

Dataset loaded successfully!
- Training set size: (13468, 2381)
- Test set size: (3368, 2381)
- Labels distribution in train: clean=6711, malware=6757
- Labels distribution in test: clean=1707, malware=1661

📚 引用

引用论文：RawMal-TF: Raw Malware Dataset Labeled by Type and Family。
BibTeX引用格式： bibtex @misc{balik2025rawmaltfrawmalwaredataset, title={RawMal-TF: Raw Malware Dataset Labeled by Type and Family}, author={B{a}lik, David and Jure{v{c}}ek, Martin and Stamp, Mark}, year={2025}, eprint={2506.23909}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2506.23909} }

搜集汇总

数据集介绍

构建方式

RawMal-TF数据集通过整合多个公开来源的恶意软件样本构建而成，包括VirusShare、VX Underground和MalwareBazaar等平台。恶意软件类型标签通过ClarAVy工具从VirusShare样本中提取，而家族标签则通过解析VX Underground样本文件名获得。数据集包含14种恶意软件类型和17个家族，并通过基于静态分析的统一特征提取流程处理，特别关注从可移植可执行文件（PE）头中提取特征，以支持高级分类任务。

特点

RawMal-TF数据集的主要特点包括其双重标注系统，即每个样本同时标注了恶意软件类型和家族信息。此外，数据集提供了原始二进制文件和提取的特征向量，为研究者提供了灵活性以进行自定义特征提取或动态分析。数据集覆盖了广泛的恶意软件行为，如病毒、蠕虫、勒索软件等，并通过标准化处理确保了特征的一致性和可比性。

使用方法

RawMal-TF数据集适用于多种机器学习任务，包括二分类（恶意软件与良性软件）、多分类（区分不同恶意软件类型或家族）以及家族间分类。研究者可以利用提供的特征提取流程生成特征向量，并应用各种机器学习模型（如随机森林、XGBoost等）进行分类任务。数据集还支持对模型性能的全面评估，包括准确率、召回率和F1分数等指标。

背景与挑战

背景概述

RawMal-TF是由捷克技术大学和美国圣何塞州立大学的研究团队于2025年推出的恶意软件数据集，专注于解决恶意软件分类中的关键挑战。该数据集通过整合来自VirusShare、VX Underground和MalwareBazaar等公开来源的原始二进制文件，并结合ClarAVy和文件名解析技术，为每个样本标注了恶意软件类型和家族信息。数据集包含14种恶意软件类型和17个家族，并通过基于静态分析的特征提取流程（特别是从可移植可执行文件头中提取特征）支持高级分类任务。RawMal-TF的推出填补了现有恶意软件数据集中缺乏原始二进制文件和细粒度标签的空白，为恶意软件检测和分类研究提供了重要的基础资源。

当前挑战

RawMal-TF面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，恶意软件分类面临恶意软件类型和家族之间边界模糊、多行为混合样本的标注困难，以及静态特征在不同变体间的差异性等挑战。构建过程中的挑战包括：从不同数据源整合样本时的标签不一致问题，VirusTotal API的速率限制导致大规模标注困难，以及处理原始二进制文件时遇到的格式兼容性和特征提取复杂性。此外，确保数据集的代表性和平衡性，同时处理恶意软件样本的多样性和演化特性，也是构建过程中的重要挑战。

常用场景

经典使用场景

RawMal-TF数据集在恶意软件分类研究中具有广泛的应用场景。该数据集通过提供原始二进制文件及其提取的静态特征，支持从基础检测到高级分类的多种任务。研究人员可以利用该数据集进行恶意软件与良性软件的二元分类，区分不同类型的恶意软件（如勒索软件与间谍软件），以及识别特定的恶意软件家族（如Emotet或TrickBot）。数据集的双层标签系统（类型和家族）使得研究可以更加细粒度，适用于探索恶意软件的行为特征和代码谱系。

实际应用

在实际应用中，RawMal-TF数据集可用于开发和优化企业级恶意软件检测系统。安全厂商可以基于该数据集训练机器学习模型，以识别新型恶意软件变种或特定攻击家族。例如，金融机构可利用家族分类模型检测银行木马（如Zbot），而政府机构可通过行为类型分类（如勒索软件）快速响应针对性攻击。数据集的原始二进制文件还支持动态分析或对抗样本生成等高级研究，为实际防御策略提供数据支撑。

衍生相关工作

围绕RawMal-TF数据集已衍生出多项经典研究。例如，基于其双层标签的对比实验揭示了家族分类相比类型分类的更高复杂度，推动了特征工程优化（如结合API调用序列）。此外，数据集的发布促进了对抗性机器学习在恶意软件检测中的应用，如生成对抗网络（GAN）用于模拟恶意软件变体。部分工作还利用该数据集探索了多模态分析，将静态特征与动态行为日志结合以提升检测鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集