EMBER_cleaned

Hugging Face2026-04-02 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/it4lia/EMBER_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

EMBER Cleaned 是原始 EMBER（Endgame Malware Benchmark for Research）数据集的清理和 AI 就绪版本，广泛用于基于静态分析的 Windows 可执行文件（PE）恶意软件检测基准。该数据集保留了原始 EMBER 的目的，同时通过标准化元数据、移除重复样本、删除常量特征，并将未标记样本导出到专用分割中，使其更易于加载和用于下游实验。数据集包含 799,838 个标记样本（平衡了良性文件和恶意文件）和 199,966 个未标记样本，每个样本表示为从 PE 文件结构和内容中提取的 2,099 维数值特征向量。这些特征包括 PE 头信息、导入的 API/库、节统计、字节直方图相关信息和熵相关特性。数据集适用于二进制恶意软件检测、表格机器学习管道基准测试、特征重要性分析、半监督学习等任务。

创建时间：

2026-03-30

原始信息汇总

EMBER Cleaned 数据集概述

数据集基本信息

数据集名称：EMBER Cleaned
原始数据集：EMBER (Endgame Malware Benchmark for Research)
原始提供方：Endgame / Elastic
语言：英语
许可证：MIT
任务类别：表格分类
标签：网络安全、恶意软件、静态分析、PE文件、恶意软件检测、基准测试、表格、AI就绪、聚类
数据规模：1M < n < 10M

数据集描述

EMBER Cleaned 是原始 EMBER（Endgame Malware Benchmark for Research） 数据集的清理和AI就绪版本。EMBER 是一个广泛使用的基准数据集，用于对Windows可移植可执行（PE）文件进行静态恶意软件检测。该清理版本保留了原始目的，同时使数据集更易于加载、更具可重复性，并更直接地适用于下游实验。

文件构成

文件	描述
`ember_clean.npz`	包含行数/特征数计数和文件引用的索引文件
`ember_clean_X.npy`	特征矩阵（`float32`），原始内存映射，形状 `(799838, 2099)`
`ember_clean_y.npy`	标签向量（`int32`），`0 = 良性`，`1 = 恶意软件`
`ember_clean_metadata.parquet`	每个样本的元数据：SHA-256、时间戳、可用时的恶意软件相关字段、质量标志
`ember_unlabeled.npz`	未标记数据分割的索引文件
`ember_unlabeled_X.npy`	具有相同2,099个特征的未标记特征矩阵
`ember_unlabeled_y.npy`	未标记分割的标签标记数组（`int32`）；预期仅包含 `-1` 值
`ember_clean_metadata_unlabeled.parquet`	未标记样本的元数据
`manifest.json`	包含校验和和工件引用的版本化清单
`ember_cleaned_dataset.ipynb`	探索和使用笔记本

数据内容

标记数据分割

799,838 个标记样本
良性和恶意文件之间大致平衡
2,099 个数值特征
特征数据类型：float32
标签数据类型：int32
标签：
- 0 = 良性
- 1 = 恶意软件

未标记数据分割

199,966 个未标记样本
为半监督工作流程单独导出
相同的2,099维特征空间
不应被解释为良性或恶性的真实标签

特征表示

样本不是原始可执行文件。每个文件都表示为一个从原始PE文件提取的固定长度静态特征向量。这些特征描述了二进制文件的结构和统计属性，例如：

PE头信息
导入的API/库
节区信息
字节直方图相关信息
熵相关特征

清理摘要

此版本是对原始EMBER工件应用质量控制和标准化流程的输出。

主要处理步骤：

使用特征指纹进行重复样本移除
常量特征过滤，将特征空间从2,381减少到2,099
元数据标准化
缺失值归一化和质量标记
标签分离，将 label = -1 的样本导出到专用的未标记分割中
为可重复性和完整性检查生成清单

主要变更摘要：

移除了196个重复样本
删除了282个常量特征
单独导出了199,966个未标记样本
最终标记数据集形状：799,838 × 2,099

典型用例

EMBER Cleaned 支持：

二进制恶意软件检测
表格机器学习流程的基准测试
特征重要性分析
使用单独的未标记分割进行半监督学习
探索性数据分析
表示学习和聚类

注意事项与限制

这仅是一个静态分析数据集。
清理版本包含衍生特征，而非原始PE二进制文件。
未标记分割不应被视为真实标签。
不应在没有额外验证的情况下将EMBER的结果过度泛化到现代恶意软件。
该数据集旨在用于防御性研究、基准测试和教育。

引用

如果使用此数据集，请引用原始的EMBER论文： Anderson, H. S., & Roth, P. (2018). EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models. arXiv. https://doi.org/10.48550/arXiv.1804.04637

原始参考信息

原始论文：Anderson, H. S., & Roth, P. (2018). EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models
原始DOI：https://doi.org/10.48550/arXiv.1804.04637
原始项目/仓库：https://github.com/elastic/ember

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，静态恶意软件检测依赖于对可执行文件特征的深入分析。EMBER_cleaned数据集作为EMBER基准的优化版本，其构建过程体现了严谨的数据治理理念。通过对原始数据集进行系统化清洗，该版本移除了重复样本，过滤了恒定特征，并将未标记样本独立导出，最终形成了包含799,838个标记样本和199,966个未标记样本的结构化集合。每个样本均被转化为2,099维的数值特征向量，这些特征源自PE文件的结构与内容，涵盖了头部信息、节区统计、导入函数及字节直方图等多维度属性。

使用方法

为有效利用该数据集，研究者可遵循其提供的标准化加载流程。通过读取索引文件获取数据维度信息，继而加载特征矩阵、标签向量及元数据文件，确保数据对齐。数据集支持典型的监督学习任务，如恶意软件二分类检测，也可利用未标记部分开展半监督学习或聚类分析。配套的探索性笔记本进一步提供了数据验证、分布可视化和案例分析等实用功能，辅助用户快速理解数据结构并构建下游应用。

背景与挑战

背景概述

在网络安全领域，恶意软件检测始终是核心研究议题，静态分析技术因其无需执行二进制文件而具备高效与安全的优势。EMBER（Endgame Malware Benchmark for Research）数据集由Endgame/Elastic机构于2018年推出，旨在为基于机器学习的静态恶意软件检测提供开放基准。该数据集专注于Windows便携式可执行（PE）文件，通过提取PE结构特征构建固定长度的数值向量，涵盖头部信息、节区统计、导入函数及字节直方图等维度，推动了恶意软件检测模型的标准化评估与比较。EMBER_cleaned作为其清理版本，进一步优化了数据质量与可用性，成为人工智能驱动的网络安全研究的重要资源。

当前挑战

EMBER数据集致力于解决静态恶意软件检测中的关键挑战，即如何在无需动态执行的前提下，仅依靠PE文件的结构特征实现高精度分类。这一领域问题面临特征表示复杂性高、恶意软件变种演化迅速以及对抗性攻击频发等难题。在数据集构建过程中，研究人员需应对原始二进制文件处理量大、特征工程维度冗余以及数据标注一致性维护等挑战。EMBER_cleaned通过去除重复样本、过滤恒定特征并分离未标记数据，旨在提升数据集的纯净度与实验可复现性，为后续模型训练提供更可靠的基础。

常用场景

经典使用场景

在网络安全领域，静态恶意软件检测是防御体系的关键环节。EMBER_cleaned数据集作为经典的基准数据集，其最经典的使用场景在于为机器学习模型提供标准化的训练与评估平台。研究人员利用该数据集中的固定长度数值特征向量，涵盖PE文件头部信息、导入函数、节区统计及字节直方图等静态属性，构建并优化二元分类模型，以区分良性文件与恶意软件。这种场景不仅推动了恶意软件检测算法的创新，还为学术界和工业界提供了可复现的实验环境，促进了检测技术的标准化发展。

解决学术问题

EMBER_cleaned数据集有效解决了恶意软件检测研究中多个常见学术问题。它通过提供大规模、平衡且特征统一的标注数据，缓解了传统研究中数据稀缺和标注不一致的挑战。该数据集支持特征重要性分析，帮助识别PE文件中最具判别性的静态属性，从而深化对恶意软件行为模式的理解。此外，其独立的未标注分割为半监督学习提供了资源，推动了在有限标注下的模型泛化能力研究。这些贡献显著提升了静态分析方法的可靠性与效率，为网络安全领域的机器学习应用奠定了坚实基础。

实际应用

在实际应用中，EMBER_cleaned数据集被广泛集成于企业安全解决方案和终端保护系统中。基于该数据集训练的模型能够高效扫描Windows可执行文件，无需运行二进制代码即可实现早期威胁检测，降低了系统风险。这种静态分析方法适用于大规模文件筛查场景，如云安全平台和防病毒软件，提升了恶意软件识别的速度和覆盖率。同时，数据集为安全研究人员提供了基准测试工具，用于评估新算法的性能，确保实际部署中的检测准确性和鲁棒性，从而增强整体网络防御能力。

数据集最近研究