MABEL

github2024-07-05 更新2024-07-06 收录

下载链接：

https://github.com/action-ai-institute/MABEL-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MABEL 是一个用于机器学习和人工智能建模的恶意软件分析数据集。该数据集包含多个特征，如sha256哈希、ClamAV扫描结果、Yara恶意软件扫描结果、恶意软件家族名称等，以及示例数据。

MABEL is a malware analysis dataset intended for machine learning and artificial intelligence modeling. This dataset includes multiple features, such as SHA256 hash, ClamAV scan results, Yara malware scan results, malware family names, etc., along with sample data.

创建时间：

2024-06-20

原始信息汇总

MABEL: 恶意软件分析基准数据集

数据集概述

MABEL是一个用于机器学习和人工智能建模的恶意软件分析数据集。该数据集包含多个文件段，需要拼接成一个完整的数据集。首次发布包含400多个恶意软件家族及其相关二进制文件的分析。

数据表描述

包含的特征

元数据特征

特征	描述	示例数据
sha256_hash	二进制文件的SHA-256哈希	04195d9d2e4623d9e3818b60c00f5a57ce593441ab137c34c4368eda8b217944
clam_av_scan_results	二进制文件的Clam-AV扫描结果	Win.Malware.Delf-6737076-0
yara_malware	YARA恶意软件扫描结果	suspicious_packer_section
family_name	恶意软件家族名称（如果归属到某个家族）	Example_Family
sample_name	分析的恶意软件名称	04195d9d2e4623d9e3818b60c00f5a57ce593441ab137c34c4368eda8b217944
md5_hash	二进制文件的MD5哈希	acd322299c4614f69147dc7254fe8c96
sha1_hash	二进制文件的SHA-1哈希	9271893e87ee85fa8ad476e4138aace1a10cf70c
sha224_hash	二进制文件的SHA-224哈希	fc841641134839c87d027d9446bc598f7552a91c0596ad53e287fae8
sha384_hash	二进制文件的SHA-384哈希	a0d1e2c658b909f6b3e60754160e5e794521d0b4b21da7636fd6fb9e3c7d49ea6b6697fa989a99a3f1ea2ffefeb40a31
sha512_hash	二进制文件的SHA-512哈希	0cc4b3be4c2d9b9e42bc803457db2102a7baf4097d03a68e69b162100aedb6aa32052bd9908a6ce16a32b606e9e0a6f722da64557e47e94ff03e7496a7516800
ssdeep	二进制文件的ssdeep相似性扫描	24576:TrIZh50bPfJa1BWeA64Uv5WGdxC3uwvf8s+qp1nMk+0EEIWGyMlX38E1GOIBJiLB:T8H50bPEGUHxC3uW8sdbMOIvyaX38E1v
imphash	用于识别相似二进制文件的导入哈希	9973fdd4b86d866b3faa39fa66cf7e0a
trid	使用TrID数据库的文件识别	40.8% (.CPL) Windows Control Panel Item (generic); 19.2% (.EXE) UPX compressed Win32 Executable; 18.8% (.EXE) Win32 EXE Yodas Crypter; 7.4% (.EXE) Win64 Executable (generic); 4.6% (.DLL) Win32 Dynamic Link Library (generic)
file_size	二进制文件大小（人类可读形式）	1401 kB
binary_file_size	二进制文件的原始大小（字节）	1400832
time_stamp	基于时间戳提取的二进制文件创建日期	2023:04:19 06:42:01+00:00
time_date_stamp	基于时间戳提取的二进制文件创建日期	0x643F8D39 [Wed Apr 19 06:42:01 2023 UTC]
file_modification_date_time	二进制文件的最后修改时间戳	2023:04:19 22:14:24+00:00
file_type_1	二进制文件类型（详细）	PE32 executable (GUI) Intel 80386 for MS Windows UPX compressed
file_type_2	二进制文件类型	Win32 EXE
binary_class	二进制分类与架构	PE32
binary_type	二进制类型规范	pe
bits_x64_x32	指示32/64位二进制架构	32
machine_architecture	执行二进制的机器架构	i386
os	指定执行二进制的操作系统	windows
file_type_extension	与二进制文件关联的文件扩展名	exe
subsystem_version	二进制子系统版本	4
summary_architecture	执行二进制的架构摘要	IMAGE_FILE_MACHINE_I386
summary_subsystem	执行二进制的子系统摘要	IMAGE_SUBSYSTEM_WINDOWS_GUI
summary_detected_languages	二进制文件中检测到的语言	Russian - Russia
entropy(min=0.0; max=8.0)	整个二进制文件的熵	6.419568
execution_section_name	包含执行代码的节名称	upx0
execution_section_entropy_of_assembly_instructions	从包含可执行代码的第一个代码节中的汇编指令（助记符+操作数）的熵	4.655806328
execution_section_entropy_of_machine_code(min=0.0; max=8.0)	从包含可执行代码的第一个代码节中的机器代码（原始字节）的熵	2.9832
image_base	二进制文件的首选虚拟基地址	0x400000
address_of_entry()	二进制文件的可执行代码起始虚拟地址	0x401060
address_of_main()	二进制文件的main()的派生虚拟地址	0x403d90
execution_start_address	起始地址（也称为入口）	0x401060
execution_end_address	最终执行指令的虚拟地址	0x40437c
execution_size_bytes	第一个可执行节的大小（字节）	13085
initialized_data_size	初始化数据节的大小	4096

深度检查特征

特征	描述	示例数据
count_unique_mnemonic	从二进制文件的反汇编代码深度检查中累积的唯一助记符总数	182
count_master_function_call_listing	通过[call]助记符累积的函数调用总数	1107
count_function_call_listing_via_prologue_analysis	通过分析函数序言累积的函数总数	845
count_function_call_listing_via_immediate_address	通过分析分支语句的目标地址累积的函数总数	921
count_function_call_listing_via_data_segment_register	通过分析数据段作为目标地址的函数调用累积的函数总数	139
count_function_call_listing_via_code_segment_register	通过分析代码段作为目标地址的函数调用累积的函数总数	0
count_function_call_listing_via_direct_register	通过分析主寄存器作为目标地址的函数调用累积的函数总数	5
count_function_call_listing_via_indirect_address	通过分析主寄存器作为目标地址的函数调用累积的函数总数	27
count_ret_addresses_via_epilogue	通过识别每个函数的最终ret累积的函数总数	1485
count_instruction_lines	二进制文件的反汇编代码中的指令总数	90557
count_NOPS	在二进制文件的反汇编代码深度检查中识别的NOP总数	895
count_INT_OVERFLOW	在二进制文件的反汇编代码深度检查中识别的中断总数	0
count_INTn	在二进制文件的反汇编代码深度检查中识别的中断总数（INT 0, 1, 2, 3除外）	5
count_INT0	在二进制文件的反汇编代码深度检查中识别的INT 0中断总数	0
count_INT1	在二进制文件的反汇编代码深度检查中识别的INT 1中断总数	0
count_INT2	在二进制文件的反汇编代码深度检查中识别的INT 2中断总数	0
count_INT3	在二进制文件的反汇编代码深度检查中识别的INT 3中断总数	3699
count_IRET	在二进制文件的反汇编代码深度检查中识别的中断返回命令总数	0
count_HLT	在二进制文件的反汇编代码深度检查中识别的停止中断命令总数	0
count_BND_CALL	在二进制文件的反汇编代码深度检查中识别的边界中断命令总数	1
count_BND_RET	在二进制文件的反汇编代码深度检查中识别的边界返回命令总数	8
count_BND_JMP_UNCONDITIONAL	在二进制文件的反汇编代码深度检查中识别的边界无条件跳转命令总数	2
count_BND_JXX_CONDITIONAL	在二进制文件的反汇编代码深度检查中识别的边界条件跳转命令总数	2
count_branching_unconditional_JMP	在二进制文件的反汇编代码深度检查中识别的无条件跳转命令总数	1877
count_branching_conditional_JXX	在二进制文件的反汇编代码深度检查中识别的条件跳转命令总数	7721
count_SYSCALL	在二进制文件的反汇编代码深度检查中识别的系统调用总数	0
count_SYSRET	在二进制文件的反汇编代码深度检查中识别的系统返回命令总数	0
count_ENTER	在二进制文件的反汇编代码深度检查中识别的进入序言命令总数	1
count_LEAVE	在二进制文件的反汇编代码深度检查中识别的离开序言命令总数	11
count_TEST	在二进制文件的反汇编代码深度检查中识别的测试命令总数	3729
count_CMP	在二进制文件的反汇编代码深度检查中识别的比较命令总数	3789
count_XOR	在二进制文件的反汇编代码深度检查中识别的异或命令总数	2020
count_CALL	在二进制文件的反汇编代码深度检查中识别的[call]函数调用命令总数	5688
count_RET	在二进制文件的反汇编代码深度检查中识别的[ret]函数返回命令总数	1477
count_ADD	在二进制文件的反汇编代码深度检查中识别的加法命令总数	2807
count_SUB	在二进制文件的反汇编代码深度检查中识别的减法命令总数	2929
count_MUL	在二进制文件的反汇编代码深度检查中识别的乘法命令总数	29
count_DIV	在二进制文件的反汇编代码深度检查中识别的除法命令总数	36
count_CDQ	在二进制文件的反汇编代码深度检查中识别的cdq命令总数	40
count_LEA	在二进制文件的反汇编代码深度检查中识别的lea命令总数	6170
count_MOV	在二进制文件的反汇编代码深度检查中识别的mov命令总数	22799
count_AND	在二进制文件的反汇编代码深度检查中识别的and命令总数	791
count_OR	在二进制文件的反汇编代码深度检查中识别的or命令总数	642
count_PUSH	在二进制文件的反汇编代码深度检查中识别的push命令总数	12915
count_POP	在二进制文件的反汇编代码深度检查中识别的pop命令总数	4168

额外特征

特征	描述	示例数据
import_functions	每个库的导入函数列表	[ADVAPI32.DLL] RegCloseKey RegCreateKeyExA RegFlushKey RegOpenKeyExA RegQueryValueExA RegSetValueExA [KERNEL32.DLL] CloseHandle CopyFileA CreateFileA CreateMutexA DeleteFileA ExitProcess FileTimeToDosDateTime FileTimeToLocalFileTime FindClose FindFirstFileA FindNextFileA FreeLibrary GetCommandLineA GetCurrentThreadId GetFileSize GetFileType GetLastError GetModuleFileNameA GetModuleHandleA GetProcessHeap GetStdHandle GetWindowsDirectoryA HeapAlloc HeapFree HeapReAlloc LocalAlloc RaiseException ReadFile RtlUnwind SetEndOfFile SetFilePointer TlsGetValue TlsSetValue UnhandledExceptionFilter WriteFile [USER32.DLL] CharNextA
count_import_functions	导入函数的总数	42
packer_1	通过第一个打包器分析例程识别的打包器类型	UPX(1.24)[NRV brute]
packer_2	通过第二个打包器分析例程识别的打包器类型	BobSoft Mini Delphi -> BoB / BobSoft
peid	使用PEiD识别的打包器或编译器	UPX -> www.upx.sourceforge.net; 1
binary_overlay_likely_packed	识别二进制文件的熵是否指示打包代码	FALSE
yara_peid	来自yara_peid扫描的结果	Borland_Delphi_40_additional; Microsoft_Visual_Cpp_v50v60_MFC; Borland_Delphi_30_additional; Borland_Delphi_30_; Borland_Delphi_Setup_Module; Borland_Delphi_40; Borland_Delphi_v40_v50; BobSoft_Mini_Delphi_BoB_BobSoft_additional; Borland_Delphi_v30; Borland_Delphi_DLL
yara_packer	来自yara_packer扫描的结果	BobSoftMiniDelphiBoBBobSoft
suspicious_overlay_data_bytes	数据覆盖中可疑字节的数量	1269760
suspicious_overlay_data_offset	可疑数据覆盖的偏移量	0x20000
binary_is_possibly_compressed_encrypted_packed	指示二进制文件是否被检测为压缩、加密或打包	FALSE
yara_apt	来自yara_apt扫描的结果	apt28_win_zebrocy_golang_loader_modified
yara_pos	来自yara_pos扫描的结果	-

搜集汇总

数据集介绍

构建方式

MABEL数据集的构建基于对400多个恶意软件家族及其相关二进制文件的深入分析。该数据集通过多种文件段拼接而成，形成一个综合性的数据集。每个文件段包含特定恶意软件家族的详细分析结果，涵盖了从元数据到二进制文件的深度检测特征。特别感谢vx-underground.org提供的样本和恶意软件家族归属信息，这些信息为数据集的构建提供了坚实的基础。

特点

MABEL数据集以其丰富的特征集著称，涵盖了从二进制文件的哈希值、文件大小、时间戳到深度反汇编代码的详细统计信息。此外，数据集还包括了多种扫描结果，如ClamAV和YARA的扫描结果，以及对二进制文件的多种加密和压缩状态的检测。这些特征不仅提供了对恶意软件行为的全面洞察，还为机器学习和人工智能模型的训练提供了丰富的数据支持。

使用方法

MABEL数据集适用于多种机器学习和人工智能模型的训练与评估。用户可以通过拼接多个文件段来构建完整的数据集，并利用其中的丰富特征进行模型训练。数据集的特征涵盖了从元数据到深度反汇编代码的多个层面，使得模型能够全面理解恶意软件的行为模式。此外，数据集还提供了详细的文档和示例数据，帮助用户快速上手并进行有效的数据分析和模型构建。

背景与挑战

背景概述

MABEL（Malware Analysis Benchmark for Artificial Intelligence and Machine Learning）数据集由vx-underground.org提供样本支持，旨在为机器学习和人工智能模型提供恶意软件分析基准。该数据集的初始版本包含400多个恶意软件家族及其相关二进制文件的分析结果。MABEL数据集不仅涵盖了恶意软件的基本元数据，如哈希值、文件大小和时间戳，还深入分析了二进制文件的反汇编代码，包括指令计数、函数调用和系统调用等高级特征。这些详细的数据为研究者提供了丰富的资源，以开发和验证针对恶意软件检测和分类的先进算法。

当前挑战

MABEL数据集在构建过程中面临多项挑战。首先，恶意软件样本的获取和分类需要高度的专业知识和资源，确保数据的准确性和完整性。其次，二进制文件的反汇编和特征提取过程复杂，涉及多种分析工具和技术，可能导致数据噪声和误差。此外，随着恶意软件技术的不断演变，数据集需要定期更新以保持其时效性和有效性。最后，数据集的规模和复杂性增加了模型训练和验证的计算负担，要求研究者具备强大的计算能力和高效的算法设计。

常用场景

经典使用场景

MABEL数据集在恶意软件分析领域中被广泛用于机器学习和人工智能模型的训练与评估。其经典使用场景包括但不限于：通过分析恶意软件的二进制文件特征，如哈希值、文件大小、时间戳等，以及深入的反汇编代码特征，如指令计数、函数调用列表等，构建分类模型以识别和区分不同家族的恶意软件。此外，MABEL还支持对恶意软件的动态行为进行分析，如系统调用、内存操作等，从而为研究人员提供全面的恶意软件行为画像。

衍生相关工作

基于MABEL数据集，研究人员和开发者已经衍生出多项经典工作。例如，有研究团队利用MABEL中的数据开发了高效的恶意软件分类算法，显著提升了恶意软件检测的准确率。此外，MABEL还激发了关于恶意软件行为分析的新方法，如基于动态行为的恶意软件检测和基于机器学习的恶意软件家族分类。在学术界，MABEL数据集也被广泛用于恶意软件分析课程的教学和实验，培养了大量网络安全领域的专业人才。

数据集最近研究