EMBER2024
收藏github2025-06-06 更新2025-06-07 收录
下载链接:
https://github.com/FutureComputing4AI/EMBER2024
下载链接
链接失效反馈官方服务:
资源简介:
EMBER2024是对EMBER2017和EMBER2018数据集的更新。它包括来自6种不同文件类型(Win32、Win64、.NET、APK、ELF和PDF)的320万个恶意和良性文件的原始特征和标签。EMBER2024旨在让研究人员探索各种常见的恶意软件分析分类任务。数据集包括7种类型的标签和标记,支持恶意/良性检测、恶意软件家族分类、恶意软件行为预测等。
EMBER2024 represents an update to the EMBER2017 and EMBER2018 datasets. It encompasses the original features and labels of 3.2 million malicious and benign files from six distinct file types (Win32, Win64, .NET, APK, ELF, and PDF). Designed to facilitate the exploration of various common malware analysis classification tasks, the dataset includes seven types of labels and annotations, supporting tasks such as malicious/benign detection, malware family classification, and malicious behavior prediction.
创建时间:
2025-06-05
原始信息汇总
EMBER2024数据集概述
数据集简介
- EMBER2024是EMBER2017和EMBER2018数据集的更新版本
- 包含320万恶意和良性文件的原始特征和标签
- 覆盖6种文件类型:Win32、Win64、.NET、APK、ELF和PDF
- 提供7种标签类型,支持多种恶意软件分析分类任务
数据集内容
- 数据时间范围:2023年9月24日至2024年12月14日首次上传到VirusTotal的文件
- 训练集:2,626,000个文件(前52周)
- 测试集:606,000个文件(后12周)
文件统计
| 文件类型 | 每周数量 | 训练集总数 | 测试集总数 |
|---|---|---|---|
| Win32 | 30,000 | 1,560,000 | 360,000 |
| Win64 | 10,000 | 520,000 | 120,000 |
| .NET | 5,000 | 260,000 | 60,000 |
| APK | 4,000 | 208,000 | 48,000 |
| 1,000 | 52,000 | 12,000 | |
| ELF | 500 | 26,000 | 6,000 |
挑战集
- 包含6,315个恶意文件
- 这些文件最初未被约70种杀毒软件检测到
特征版本
- EMBER特征版本3("thrember")
- 使用pefile库替代LIEF
- 新增特征:DOS头、Rich头、PE数据目录、Authenticode签名等
- 支持非PE文件特征提取
数据下载
- 可通过HuggingFace下载
- 支持按文件类型和数据集划分下载
数据集大小
| 子集 | 总大小 |
|---|---|
| Win32训练集 | 23.7 GB |
| Win32测试集 | 4.9 GB |
| Win64训练集 | 12.9 GB |
| Win64测试集 | 2.5 GB |
| .NET训练集 | 1.8 GB |
| .NET测试集 | 425 MB |
| APK训练集 | 1.0 GB |
| APK测试集 | 234 MB |
| PDF训练集 | 197 MB |
| PDF测试集 | 46 MB |
| ELF训练集 | 100 MB |
| ELF测试集 | 24 MB |
| 挑战集 | 126 MB |
特征向量化
- 支持创建特征向量和标签的.dat文件
- 支持多种标签类型:家族、行为、文件属性等
引用
bibtex @inproceedings{joyce2025ember, title={EMBER2024 - A Benchmark Dataset for Holistic Evaluation of Malware Classifiers}, author={Robert J. Joyce and Gideon Miller and Phil Roth and Richard Zak and Elliott Zaresky-Williams and Hyrum Anderson and Edward Raff and James Holt}, year={2025}, booktitle={Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, }
搜集汇总
数据集介绍

构建方式
EMBER2024数据集作为恶意软件分析领域的重要基准,其构建过程体现了严谨的时间窗口采样策略。该数据集精选了2023年9月至2024年12月期间上传至VirusTotal的320万份恶意与良性文件样本,覆盖Win32、Win64等6种文件类型。通过每周固定抽取50,500份样本的标准化流程,形成包含262.6万训练样本与60.6万测试样本的时序划分,特别设计了最后12周数据作为测试集以验证模型对新威胁的检测能力。挑战集的构建则聚焦315份初始未被主流杀毒软件识别的规避型恶意样本,为检测模型提供高难度评估场景。
特点
该数据集最显著的特征在于其多维标注体系与跨平台兼容性。除传统的恶意/良性二分类标签外,还包含恶意家族、行为特征等7类细粒度标注,支持多维度研究任务。特征提取采用创新的thrember方案,基于pefile库重构特征向量格式,新增DOS头、数字签名等PE文件解析维度,并扩展支持APK/ELF/PDF等非PE文件的通用特征提取。数据分布方面,Win32样本占比达60%体现Windows平台主导地位,同时通过精确控制各类型样本量保持多样性平衡。
使用方法
研究者可通过HuggingFace平台分模块获取数据资源,支持按文件类型(PE/APK等)或数据集划分(训练/测试/挑战集)灵活下载。特征向量化过程通过thrember.create_vectorized_features()函数实现,允许指定家族分类、行为预测等不同任务标签类型,并可通过class_min参数控制稀有类别过滤阈值。数据集加载接口返回numpy矩阵格式的特征向量与标签,与scikit-learn等机器学习库无缝衔接。配套提供的LightGBM基准模型和Jupyter示例脚本,为恶意软件检测、家族分类等任务提供完整的实验参照体系。
背景与挑战
背景概述
EMBER2024数据集是EMBER系列的最新迭代,由FutureComputing4AI团队于2024年推出,旨在为恶意软件分析领域提供更全面的研究基准。作为EMBER2017和EMBER2018的升级版本,该数据集囊括了320万份恶意与良性文件样本,覆盖Win32、Win64、.NET、APK、ELF和PDF六种文件类型,支持恶意性检测、家族分类、行为预测等多维度研究任务。其创新性体现在采用pefile库重构特征提取框架,并引入DOS头、数字签名等新型特征维度,显著提升了跨平台文件分析的适应性。该数据集通过模拟分类器对未知恶意软件的检测场景,为网络安全领域的算法鲁棒性评估提供了重要基础设施。
当前挑战
EMBER2024面临的核心挑战体现在两个层面:在领域问题层面,恶意软件快速演化导致的特征漂移现象对分类器泛化能力提出严峻考验,尤其需要应对挑战集中6315个初始逃逸杀毒软件检测的高隐蔽性样本;在构建技术层面,多平台文件格式的异构性迫使特征工程需兼顾PE文件与非PE文件的统一表征,而每周5万余样本的规模则对特征提取管线的计算效率与存储优化提出极高要求。此外,如何平衡罕见家族样本的保留与特征向量稀疏性问题,亦是标签体系设计中的关键难点。
常用场景
经典使用场景
在恶意软件检测领域,EMBER2024数据集为研究人员提供了一个全面的实验平台。该数据集涵盖了Win32、Win64、.NET、APK、ELF和PDF六种文件类型,共计320万恶意与良性文件样本。研究人员可以利用这些数据探索恶意软件分类任务,包括恶意/良性检测、恶意软件家族分类以及行为预测等。通过模拟训练集与测试集的时间差异,该数据集特别适合评估分类器对新型恶意软件的检测能力。
衍生相关工作
EMBER2024已催生多项具有影响力的衍生研究。基于该数据集训练的14个LightGBM基准分类器成为恶意软件检测领域的通用参照标准。部分研究团队进一步扩展了其特征工程方法,开发出支持非PE文件解析的混合特征提取框架。此外,结合ClarAVy标签系统的家族分类研究,推动了恶意软件溯源分析技术的精细化发展。
数据集最近研究
最新研究方向
随着恶意软件攻击手段的日益复杂化,EMBER2024数据集为恶意软件检测领域提供了全新的研究视角。该数据集涵盖了Win32、Win64、.NET、APK、ELF和PDF六种文件类型,共计320万恶意与良性文件样本,为研究者探索恶意软件分类任务奠定了坚实基础。当前研究热点聚焦于利用该数据集进行多模态恶意软件检测,特别是针对新型逃避技术的挑战集分析,以及跨平台恶意行为预测模型的构建。数据集引入的第三代特征向量格式,结合pefile库的稳定性和扩展性,为特征工程研究开辟了新路径。在人工智能安全备受关注的背景下,EMBER2024的时间划分设计使研究者能够模拟真实场景下的新型恶意软件检测,这对推动动态防御体系的发展具有重要价值。
以上内容由遇见数据集搜集并总结生成



