EMBER2024

github2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/FutureComputing4AI/EMBER2024

下载链接

链接失效反馈

官方服务：

资源简介：

EMBER2024是对EMBER2017和EMBER2018数据集的更新。它包括来自6种不同文件类型（Win32、Win64、.NET、APK、ELF和PDF）的320万个恶意和良性文件的原始特征和标签。EMBER2024旨在让研究人员探索各种常见的恶意软件分析分类任务。数据集包括7种类型的标签和标记，支持恶意/良性检测、恶意软件家族分类、恶意软件行为预测等。

EMBER2024 represents an update to the EMBER2017 and EMBER2018 datasets. It encompasses the original features and labels of 3.2 million malicious and benign files from six distinct file types (Win32, Win64, .NET, APK, ELF, and PDF). Designed to facilitate the exploration of various common malware analysis classification tasks, the dataset includes seven types of labels and annotations, supporting tasks such as malicious/benign detection, malware family classification, and malicious behavior prediction.

创建时间：

2025-06-05

原始信息汇总

EMBER2024数据集概述

数据集简介

EMBER2024是EMBER2017和EMBER2018数据集的更新版本
包含320万恶意和良性文件的原始特征和标签
覆盖6种文件类型：Win32、Win64、.NET、APK、ELF和PDF
提供7种标签类型，支持多种恶意软件分析分类任务

数据集内容

数据时间范围：2023年9月24日至2024年12月14日首次上传到VirusTotal的文件
训练集：2,626,000个文件（前52周）
测试集：606,000个文件（后12周）

文件统计

文件类型	每周数量	训练集总数	测试集总数
Win32	30,000	1,560,000	360,000
Win64	10,000	520,000	120,000
.NET	5,000	260,000	60,000
APK	4,000	208,000	48,000
PDF	1,000	52,000	12,000
ELF	500	26,000	6,000

挑战集

包含6,315个恶意文件
这些文件最初未被约70种杀毒软件检测到

特征版本

EMBER特征版本3（"thrember"）
使用pefile库替代LIEF
新增特征：DOS头、Rich头、PE数据目录、Authenticode签名等
支持非PE文件特征提取

数据下载

可通过HuggingFace下载
支持按文件类型和数据集划分下载

数据集大小

子集	总大小
Win32训练集	23.7 GB
Win32测试集	4.9 GB
Win64训练集	12.9 GB
Win64测试集	2.5 GB
.NET训练集	1.8 GB
.NET测试集	425 MB
APK训练集	1.0 GB
APK测试集	234 MB
PDF训练集	197 MB
PDF测试集	46 MB
ELF训练集	100 MB
ELF测试集	24 MB
挑战集	126 MB

特征向量化

支持创建特征向量和标签的.dat文件
支持多种标签类型：家族、行为、文件属性等

引用

bibtex @inproceedings{joyce2025ember, title={EMBER2024 - A Benchmark Dataset for Holistic Evaluation of Malware Classifiers}, author={Robert J. Joyce and Gideon Miller and Phil Roth and Richard Zak and Elliott Zaresky-Williams and Hyrum Anderson and Edward Raff and James Holt}, year={2025}, booktitle={Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, }

搜集汇总

数据集介绍

构建方式

EMBER2024数据集作为恶意软件分析领域的重要基准，其构建过程体现了严谨的时间窗口采样策略。该数据集精选了2023年9月至2024年12月期间上传至VirusTotal的320万份恶意与良性文件样本，覆盖Win32、Win64等6种文件类型。通过每周固定抽取50,500份样本的标准化流程，形成包含262.6万训练样本与60.6万测试样本的时序划分，特别设计了最后12周数据作为测试集以验证模型对新威胁的检测能力。挑战集的构建则聚焦315份初始未被主流杀毒软件识别的规避型恶意样本，为检测模型提供高难度评估场景。

特点

该数据集最显著的特征在于其多维标注体系与跨平台兼容性。除传统的恶意/良性二分类标签外，还包含恶意家族、行为特征等7类细粒度标注，支持多维度研究任务。特征提取采用创新的thrember方案，基于pefile库重构特征向量格式，新增DOS头、数字签名等PE文件解析维度，并扩展支持APK/ELF/PDF等非PE文件的通用特征提取。数据分布方面，Win32样本占比达60%体现Windows平台主导地位，同时通过精确控制各类型样本量保持多样性平衡。

使用方法

研究者可通过HuggingFace平台分模块获取数据资源，支持按文件类型（PE/APK等）或数据集划分（训练/测试/挑战集）灵活下载。特征向量化过程通过thrember.create_vectorized_features()函数实现，允许指定家族分类、行为预测等不同任务标签类型，并可通过class_min参数控制稀有类别过滤阈值。数据集加载接口返回numpy矩阵格式的特征向量与标签，与scikit-learn等机器学习库无缝衔接。配套提供的LightGBM基准模型和Jupyter示例脚本，为恶意软件检测、家族分类等任务提供完整的实验参照体系。

背景与挑战

背景概述

EMBER2024数据集是EMBER系列的最新迭代，由FutureComputing4AI团队于2024年推出，旨在为恶意软件分析领域提供更全面的研究基准。作为EMBER2017和EMBER2018的升级版本，该数据集囊括了320万份恶意与良性文件样本，覆盖Win32、Win64、.NET、APK、ELF和PDF六种文件类型，支持恶意性检测、家族分类、行为预测等多维度研究任务。其创新性体现在采用pefile库重构特征提取框架，并引入DOS头、数字签名等新型特征维度，显著提升了跨平台文件分析的适应性。该数据集通过模拟分类器对未知恶意软件的检测场景，为网络安全领域的算法鲁棒性评估提供了重要基础设施。

当前挑战

EMBER2024面临的核心挑战体现在两个层面：在领域问题层面，恶意软件快速演化导致的特征漂移现象对分类器泛化能力提出严峻考验，尤其需要应对挑战集中6315个初始逃逸杀毒软件检测的高隐蔽性样本；在构建技术层面，多平台文件格式的异构性迫使特征工程需兼顾PE文件与非PE文件的统一表征，而每周5万余样本的规模则对特征提取管线的计算效率与存储优化提出极高要求。此外，如何平衡罕见家族样本的保留与特征向量稀疏性问题，亦是标签体系设计中的关键难点。

常用场景

经典使用场景

在恶意软件检测领域，EMBER2024数据集为研究人员提供了一个全面的实验平台。该数据集涵盖了Win32、Win64、.NET、APK、ELF和PDF六种文件类型，共计320万恶意与良性文件样本。研究人员可以利用这些数据探索恶意软件分类任务，包括恶意/良性检测、恶意软件家族分类以及行为预测等。通过模拟训练集与测试集的时间差异，该数据集特别适合评估分类器对新型恶意软件的检测能力。

衍生相关工作

EMBER2024已催生多项具有影响力的衍生研究。基于该数据集训练的14个LightGBM基准分类器成为恶意软件检测领域的通用参照标准。部分研究团队进一步扩展了其特征工程方法，开发出支持非PE文件解析的混合特征提取框架。此外，结合ClarAVy标签系统的家族分类研究，推动了恶意软件溯源分析技术的精细化发展。

数据集最近研究