EMBER2024

Name: EMBER2024
Creator: Booz Allen Hamilton, Laboratory for Physical Sciences, CrowdStrike, Cisco Systems
Published: 2025-06-05 22:20:36
License: 暂无描述

arXiv2025-06-05 更新2025-11-28 收录

下载链接：

https://github.com/FutureComputing4AI/EMBER2024

下载链接

链接失效反馈

官方服务：

资源简介：

EMBER2024是一个新的数据集，旨在全面评估恶意软件分类器。该数据集由EMBER2017和EMBER2018的作者与相关机构合作创建，包含来自六种文件格式的超过320万文件的哈希、元数据、特征向量和标签。数据集支持对七个恶意软件分类任务的机器学习模型的训练和评估，包括恶意软件检测、恶意软件家族分类和恶意软件行为识别。EMBER2024是第一个包含最初未被任何防病毒产品检测到的恶意文件集合的数据集，创建了一个“挑战”集，以评估分类器对逃避恶意软件的性能。该数据集还引入了EMBER特征版本3，增加了对新特征类型的支持。

EMBER2024 is a novel dataset designed to comprehensively evaluate malware classifiers. Developed in collaboration with the authors of EMBER2017 and EMBER2018 and relevant institutions, this dataset contains hashes, metadata, feature vectors, and labels for over 3.2 million files across six file formats. The dataset supports the training and evaluation of machine learning models for seven malware classification tasks, including malware detection, malware family classification, and malware behavior recognition. EMBER2024 is the first dataset to include a collection of malicious files that were initially undetected by any antivirus products, creating a "challenge set" to assess the performance of classifiers against evasive malware. The dataset also introduces EMBER Feature Version 3, which adds support for new feature types.

提供机构：

Booz Allen Hamilton, Laboratory for Physical Sciences, CrowdStrike, Cisco Systems

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

在恶意软件分析领域，数据集的构建需兼顾时效性与代表性。EMBER2024的构建依托VirusTotal平台，通过系统化采集2023年9月至2024年12月期间首次提交的文件，并采用双重查询策略：在文件提交后24小时内及90天后分别获取检测报告，以确保标签的准确性。文件按周均衡抽取，涵盖Win32、Win64、.NET、APK、ELF和PDF六种格式，并通过TLSH哈希去重，避免近重复样本的影响。数据划分上，前52周用于训练集，后12周用于测试集，同时专门构建了由初始未被任何杀毒软件检测到的恶意文件组成的挑战集，以评估模型对规避性恶意软件的检测能力。

使用方法

为促进恶意软件分类研究的可复现性，EMBER2024提供了完整的数据使用框架。研究者可通过公开的GitHub仓库获取特征向量、元数据及标签，并利用配套代码灵活构建自定义数据集划分，支持按文件类型、标签类别或挑战集进行子集选择。特征提取工具已更新为基于pefile库的实现，简化了依赖管理并支持特征版本三的生成。使用流程包括加载特征向量、训练基准模型（如提供的LightGBM分类器）及在测试集或挑战集上进行性能评估。数据集特别鼓励研究者探索时间漂移、新家族检测及规避性恶意软件识别等前沿问题，通过对比基准模型结果推动算法创新。

背景与挑战

背景概述

在恶意软件分析领域，高质量公开数据集的稀缺长期制约着学术研究的进展。为应对这一挑战，由Booz Allen Hamilton、CrowdStrike、Cisco Systems及Laboratory for Physical Sciences等机构的研究人员于2025年共同发布了EMBER2024数据集。该数据集作为EMBER2017与EMBER2018的延续与扩展，旨在为恶意软件分类器提供全面评估基准。其核心研究问题聚焦于解决现有数据集在时间陈旧性、平台单一性以及任务局限性等方面的不足。通过整合2023年9月至2024年12月期间收集的超过320万份文件，涵盖六种文件格式并支持七类分类任务，EMBER2024显著提升了恶意软件检测、家族分类及行为识别等多维度研究的可行性，对推动机器学习在网络安全领域的应用具有重要影响力。

当前挑战

EMBER2024致力于解决的领域挑战在于恶意软件分类的全面性与时效性。传统数据集往往局限于单一平台或任务，难以反映现实世界中多态、跨平台且具有规避特性的恶意软件生态。该数据集通过引入首个‘挑战集’——包含最初未被任何杀毒产品检测到的恶意文件，直接应对了检测规避性恶意软件这一核心难题。在构建过程中，研究团队面临多重挑战：一是数据收集与标注的复杂性，需依赖VirusTotal平台并设计严谨的时间延迟验证流程以确保标签准确性；二是跨格式特征统一表示的实现，为此团队升级了EMBER特征至第三版，新增了对非PE文件的部分支持；三是数据平衡与去重，需在每周固定数量采样中排除近重复文件，以保持数据集的多样性与代表性。

常用场景

经典使用场景

在恶意软件检测与分类研究领域，EMBER2024数据集为机器学习模型的训练与评估提供了标准化基准。该数据集整合了超过320万个文件，涵盖Win32、Win64、.NET、APK、ELF和PDF六种格式，并支持恶意软件检测、家族分类及行为识别等七类任务。其核心价值在于首次引入了由初始未被任何杀毒产品检测到的恶意文件构成的“挑战集”，使得研究者能够系统评估分类器在面对规避性恶意软件时的鲁棒性。通过提供统一的EMBER特征版本3向量，该数据集极大地促进了静态恶意软件分析的可复现性研究。

解决学术问题

EMBER2024有效应对了恶意软件研究中的数据可及性与时效性难题。传统公开数据集往往局限于单一平台或任务标签，且缺乏对新型规避恶意软件的覆盖，导致模型评估存在偏差。该数据集通过纳入2023年至2024年间收集的最新样本，缓解了因恶意软件生态快速演变而产生的概念漂移问题。其多任务标签体系与跨平台特征表示，使得研究者能够在一个统一框架下探索检测、家族归因、行为预测等复合学术问题，为构建更全面、稳健的恶意软件分类理论提供了数据基础。

实际应用

EMBER2024在网络安全产业与学术教育中具有广泛的实际应用前景。安全企业可利用该数据集训练和验证下一代恶意软件检测引擎，特别是针对APT攻击中常用的规避技术进行专项优化。教育机构则能将其作为机器学习安全课程的实践教材，帮助学生理解静态特征提取、多标签分类等关键技术。此外，数据集附带的完整代码工具链支持用户复现数据构建流程与特征提取方法，降低了行业从业者构建自有检测系统的技术门槛，推动了产研协同创新。

数据集最近研究