EMBER

Name: EMBER
Creator: Endgame, Inc.
Published: 2018-04-17 04:43:33
License: 暂无描述

arXiv2018-04-17 更新2024-06-21 收录

下载链接：

https://github.com/endgameinc/ember

下载链接

链接失效反馈

官方服务：

资源简介：

EMBER是由Endgame, Inc.创建的一个开放数据集，用于训练静态PE恶意软件机器学习模型。该数据集包含从110万个二进制文件中提取的特征，其中90万个用于训练（30万个恶意，30万个良性，30万个未标记），20万个用于测试（10万个恶意，10万个良性）。数据集的创建旨在填补信息安全机器学习社区中缺乏大规模、开放和通用恶意/良性数据集的空白。EMBER数据集的应用领域主要集中在恶意软件检测，通过提供一个基准数据集，帮助推动机器学习在恶意软件检测领域的研究。

EMBER is an open dataset developed by Endgame, Inc. for training machine learning models on static PE malware. This dataset includes features extracted from 1.1 million binary files, with 900,000 samples allocated for training (300,000 malicious, 300,000 benign, and 300,000 unlabeled) and 200,000 samples reserved for testing (100,000 malicious and 100,000 benign). The dataset was created to address the shortage of large-scale, open, and general-purpose malicious/benign datasets within the information security and machine learning research community. The primary application area of the EMBER dataset is malware detection: by providing a benchmark dataset, it facilitates the advancement of machine learning research in the field of malware detection.

提供机构：

Endgame, Inc.

创建时间：

2018-04-13

搜集汇总

数据集介绍

构建方式

EMBER数据集的构建方式是通过从大量的Windows可移植可执行文件（PE）中提取特征，这些文件包括恶意和良性的样本。数据集包含了从1.1百万个二进制文件中提取的特征：其中900K个训练样本（300K个恶意样本，300K个良性样本，300K个未标记样本）和200K个测试样本（100K个恶意样本，100K个良性样本）。为了与数据集一起使用，还发布了开源代码，用于从其他二进制文件中提取特征，以便将更多的样本特征添加到数据集中。

使用方法

EMBER数据集的使用方法包括：1.研究人员可以使用数据集中的特征来训练机器学习模型，用于静态检测恶意Windows PE文件；2.研究人员可以使用开源代码来提取其他二进制文件的特征，并将其添加到数据集中；3.研究人员可以使用数据集中的未标记样本来进行半监督学习研究；4.研究人员可以使用数据集中的时间戳来进行纵向研究；5.研究人员可以使用数据集中的sha256哈希值来将特征与原始二进制文件关联起来。

背景与挑战

背景概述

EMBER数据集是一项针对恶意Windows可移植执行文件进行静态检测的机器学习模型的训练数据集。该数据集由Endgame公司的研究人员Hyrum S. Anderson于2018年创建，旨在填补信息安全机器学习社区在大型、开放和通用良性/恶意数据集方面的空白。EMBER数据集包括从1.1M二进制文件中提取的特征：900K训练样本（包括300K恶意、300K良性、300K未标记），以及200K测试样本（包括100K恶意、100K良性）。该数据集的发布为机器学习在恶意软件检测方面的研究提供了新的机遇，并有望推动该领域的发展。

当前挑战

EMBER数据集面临的挑战主要包括：1) 所解决的领域问题：EMBER数据集旨在解决恶意软件检测的问题，但由于恶意软件的动态特性和不断演变，因此需要不断更新数据集和模型以适应新的威胁；2) 构建过程中所遇到的挑战：在构建EMBER数据集的过程中，研究人员面临着法律限制、标签挑战和安全性责任等问题。为了解决这些问题，EMBER数据集仅包含文件的SHA256哈希值和标签，不提供原始二进制文件，以避免法律和安全风险。此外，EMBER数据集的构建过程也面临了技术挑战，例如如何有效地提取和表示PE文件的特征，以及如何设计可扩展的数据结构以支持不同的研究用途。

常用场景

经典使用场景

EMBER数据集是用于训练机器学习模型以静态检测恶意Windows可移植可执行文件（PE文件）的基准数据集。该数据集包括从110万个二进制文件中提取的特征：90万个训练样本（30万个恶意，30万个良性，30万个未标记）和20万个测试样本（10万个恶意，10万个良性）。EMBER数据集填补了信息安全机器学习社区的一个空白：一个足够大、开放和通用的良性/恶意数据集，可以覆盖几个有趣的使用案例。该数据集为机器学习在恶意软件检测中的应用提供了宝贵的资源。

解决学术问题

EMBER数据集解决了机器学习在恶意软件检测中缺乏大型、开放和通用数据集的问题。它提供了足够的数据量，使得研究人员能够训练和测试机器学习模型，以检测恶意软件。EMBER数据集还解决了标记挑战，因为它提供了预选特征，这使得研究人员能够更容易地进行比较研究。此外，EMBER数据集还解决了安全问题，因为它不包含原始二进制文件，而是提供了文件的SHA256哈希值，从而降低了安全风险。

实际应用

EMBER数据集在实际应用场景中具有广泛的应用前景。它可以用于开发恶意软件检测工具，以保护计算机系统免受恶意软件的侵害。此外，EMBER数据集还可以用于研究机器学习在恶意软件检测中的性能，以及如何改进模型的准确性和效率。EMBER数据集还可以用于研究对抗性攻击和防御策略，以保护机器学习模型免受攻击。

数据集最近研究