EMBER2024-capa

Hugging Face2025-08-24 更新2025-08-25 收录

下载链接：

https://huggingface.co/datasets/joyce8/EMBER2024-capa

下载链接

链接失效反馈

官方服务：

资源简介：

EMBER2024-capa数据集是一个包含恶意Win32和Win64文件的功能分析的数据库。该数据集通过使用Capa工具对文件进行分析，识别出583种不同的功能，这些功能在超过1600万个函数中被发现。每个函数都被描述为一个JSON对象，包括功能地址、功能名称、字节码和反汇编信息。数据集未去重，可能包含重复的函数。这些功能不一定是恶意行为的指示，但在恶意软件分析时了解它们通常是有用的。

创建时间：

2025-08-20

原始信息汇总

EMBER2024-capa 数据集概述

数据集基本信息

许可证：Apache 2.0
语言：英语
标签：网络安全、恶意软件、反汇编
数据集名称：EMBER2024-capa
规模：10M到100M之间

数据集描述

EMBER2024-capa 数据集基于 Capa 恶意软件分析工具对 EMBER2024 数据集中所有恶意 Win32 和 Win64 文件的分析结果生成。Capa 用于识别文件的功能特性。

数据内容

分析对象：EMBER2024 数据集中的所有恶意 Win32 和 Win64 文件
识别能力：583 种不同的功能特性
覆盖函数：16,356,790 个函数（Win32：10,756,829 个，Win64：5,599,961 个）
数据格式：每个函数对应一个 JSON 对象

数据结构

每个 JSON 对象包含以下字段：

sha256：文件哈希值
func_addr：函数地址
capa：识别的功能特性列表
bytes：函数字节码
disasm：反汇编指令列表

数据特性

数据集未去重，相同函数可能出现在不同文件或同一文件中
功能特性不一定表示恶意行为，但对恶意软件分析具有参考价值

主要功能特性统计

前10个最常见的功能特性：

功能特性	出现次数
使用异或编码数据	1,403,283
在Windows上读取文件	1,117,738
解析PE导出表解析函数	1,069,762
获取常见文件路径	894,799
在Windows上写入文件	863,598
查询或枚举注册表值	744,832
检查文件是否存在	668,035
删除文件	659,308
获取文件属性	580,237
在Windows上创建进程	522,145

引用信息

如需在研究中使用本数据集或完整 EMBER2024 数据集，请引用：

@inproceedings{joyce2025ember2024, title={EMBER2024-A Benchmark Dataset for Holistic Evaluation of Malware Classifiers}, author={Joyce, Robert J and Miller, Gideon and Roth, Phil and Zak, Richard and Zaresky-Williams, Elliott and Anderson, Hyrum and Raff, Edward and Holt, James}, booktitle={Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 2}, pages={5516--5526}, year={2025} }

搜集汇总

数据集介绍

构建方式

在恶意软件分析领域，EMBER2024-capa数据集通过Capa工具对EMBER2024数据集内所有Win32与Win64恶意文件进行深度解析。该工具能够精准识别文件中包含的各类功能特性，并标注其对应的命名空间。构建过程中共分析了超过1600万个函数，涵盖583种独特能力，每个函数均以JSON对象形式存储，包含哈希值、函数地址、Capa识别能力、字节码及反汇编代码等关键信息。

使用方法

研究人员可通过解析JSON对象中的函数级元数据，构建恶意软件能力画像。典型应用包括训练基于机器学习的恶意代码检测模型，分析特定能力在恶意软件家族中的分布规律，或结合反汇编代码进行细粒度行为分析。数据集支持函数级别和文件级别的联合查询，为网络安全领域的态势感知和威胁情报研究提供结构化数据支撑。

背景与挑战

背景概述

网络安全领域对恶意软件分析技术的需求催生了EMBER2024-capa数据集的诞生，该数据集由研究团队于2024年构建，旨在通过Capa工具对恶意软件功能进行精细化标注。数据集基于EMBER2024样本集，覆盖超过1600万个函数的功能特征，标志着恶意软件分析从传统分类向能力识别范式转变。这一创新为恶意软件行为分析、威胁检测模型训练提供了大规模标注数据，显著推动了人工智能在网络安全领域的应用深度。

当前挑战

该数据集核心挑战在于解决恶意软件功能识别的粒度问题，需准确区分583种能力特征并关联到具体函数。构建过程中面临双重挑战：一是Capa工具对混淆代码的分析局限性导致部分功能漏报，二是大规模函数去重与跨平台（Win32/Win64）一致性处理的复杂性。此外，能力标签与恶意行为的非确定性关联要求研究者谨慎解读数据特征。

常用场景

经典使用场景

在恶意软件分析领域，EMBER2024-capa数据集为研究人员提供了大规模函数级行为特征标注。该数据集通过capa工具对1600余万个函数进行能力识别，典型应用于构建恶意代码行为知识图谱，支持自动化恶意软件分类系统开发。研究人员可基于XOR编码、文件操作等583种能力标签，训练深度学习模型识别潜在恶意行为模式。

解决学术问题

该数据集有效解决了恶意软件行为表征的细粒度标注难题，为学术研究提供了标准化评估基准。通过函数级能力标注，支持研究者探索恶意代码的战术链重构问题，推动检测模型可解释性研究。其大规模标注数据显著缓解了恶意软件分析领域标注样本稀缺的困境，为行为型检测算法提供了验证基础。

实际应用

实际应用中，该数据集被集成到终端安全防护系统中，用于增强恶意软件动态检测能力。安全厂商利用其标注的能力特征训练行为检测引擎，实现对新型恶意软件的早期预警。在企业安全运维中，基于该数据集开发的系统可自动识别可疑文件的持久化、反虚拟机等高风险行为，提升威胁狩猎效率。

数据集最近研究