five

MABEL

收藏
github2024-07-05 更新2024-07-06 收录
下载链接:
https://github.com/action-ai-institute/MABEL-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MABEL 是一个用于机器学习和人工智能建模的恶意软件分析数据集。该数据集包含多个特征,如sha256哈希、ClamAV扫描结果、Yara恶意软件扫描结果、恶意软件家族名称等,以及示例数据。

MABEL is a malware analysis dataset intended for machine learning and artificial intelligence modeling. This dataset includes multiple features, such as SHA256 hash, ClamAV scan results, Yara malware scan results, malware family names, etc., along with sample data.
创建时间:
2024-06-20
原始信息汇总

MABEL: 恶意软件分析基准数据集

数据集概述

MABEL是一个用于机器学习和人工智能建模的恶意软件分析数据集。该数据集包含多个文件段,需要拼接成一个完整的数据集。首次发布包含400多个恶意软件家族及其相关二进制文件的分析。

数据表描述

包含的特征

元数据特征

特征 描述 示例数据
sha256_hash 二进制文件的SHA-256哈希 04195d9d2e4623d9e3818b60c00f5a57ce593441ab137c34c4368eda8b217944
clam_av_scan_results 二进制文件的Clam-AV扫描结果 Win.Malware.Delf-6737076-0
yara_malware YARA恶意软件扫描结果 suspicious_packer_section
family_name 恶意软件家族名称(如果归属到某个家族) Example_Family
sample_name 分析的恶意软件名称 04195d9d2e4623d9e3818b60c00f5a57ce593441ab137c34c4368eda8b217944
md5_hash 二进制文件的MD5哈希 acd322299c4614f69147dc7254fe8c96
sha1_hash 二进制文件的SHA-1哈希 9271893e87ee85fa8ad476e4138aace1a10cf70c
sha224_hash 二进制文件的SHA-224哈希 fc841641134839c87d027d9446bc598f7552a91c0596ad53e287fae8
sha384_hash 二进制文件的SHA-384哈希 a0d1e2c658b909f6b3e60754160e5e794521d0b4b21da7636fd6fb9e3c7d49ea6b6697fa989a99a3f1ea2ffefeb40a31
sha512_hash 二进制文件的SHA-512哈希 0cc4b3be4c2d9b9e42bc803457db2102a7baf4097d03a68e69b162100aedb6aa32052bd9908a6ce16a32b606e9e0a6f722da64557e47e94ff03e7496a7516800
ssdeep 二进制文件的ssdeep相似性扫描 24576:TrIZh50bPfJa1BWeA64Uv5WGdxC3uwvf8s+qp1nMk+0EEIWGyMlX38E1GOIBJiLB:T8H50bPEGUHxC3uW8sdbMOIvyaX38E1v
imphash 用于识别相似二进制文件的导入哈希 9973fdd4b86d866b3faa39fa66cf7e0a
trid 使用TrID数据库的文件识别 40.8% (.CPL) Windows Control Panel Item (generic); 19.2% (.EXE) UPX compressed Win32 Executable; 18.8% (.EXE) Win32 EXE Yodas Crypter; 7.4% (.EXE) Win64 Executable (generic); 4.6% (.DLL) Win32 Dynamic Link Library (generic)
file_size 二进制文件大小(人类可读形式) 1401 kB
binary_file_size 二进制文件的原始大小(字节) 1400832
time_stamp 基于时间戳提取的二进制文件创建日期 2023:04:19 06:42:01+00:00
time_date_stamp 基于时间戳提取的二进制文件创建日期 0x643F8D39 [Wed Apr 19 06:42:01 2023 UTC]
file_modification_date_time 二进制文件的最后修改时间戳 2023:04:19 22:14:24+00:00
file_type_1 二进制文件类型(详细) PE32 executable (GUI) Intel 80386 for MS Windows UPX compressed
file_type_2 二进制文件类型 Win32 EXE
binary_class 二进制分类与架构 PE32
binary_type 二进制类型规范 pe
bits_x64_x32 指示32/64位二进制架构 32
machine_architecture 执行二进制的机器架构 i386
os 指定执行二进制的操作系统 windows
file_type_extension 与二进制文件关联的文件扩展名 exe
subsystem_version 二进制子系统版本 4
summary_architecture 执行二进制的架构摘要 IMAGE_FILE_MACHINE_I386
summary_subsystem 执行二进制的子系统摘要 IMAGE_SUBSYSTEM_WINDOWS_GUI
summary_detected_languages 二进制文件中检测到的语言 Russian - Russia
entropy(min=0.0; max=8.0) 整个二进制文件的熵 6.419568
execution_section_name 包含执行代码的节名称 upx0
execution_section_entropy_of_assembly_instructions 从包含可执行代码的第一个代码节中的汇编指令(助记符+操作数)的熵 4.655806328
execution_section_entropy_of_machine_code(min=0.0; max=8.0) 从包含可执行代码的第一个代码节中的机器代码(原始字节)的熵 2.9832
image_base 二进制文件的首选虚拟基地址 0x400000
address_of_entry() 二进制文件的可执行代码起始虚拟地址 0x401060
address_of_main() 二进制文件的main()的派生虚拟地址 0x403d90
execution_start_address 起始地址(也称为入口) 0x401060
execution_end_address 最终执行指令的虚拟地址 0x40437c
execution_size_bytes 第一个可执行节的大小(字节) 13085
initialized_data_size 初始化数据节的大小 4096

深度检查特征

特征 描述 示例数据
count_unique_mnemonic 从二进制文件的反汇编代码深度检查中累积的唯一助记符总数 182
count_master_function_call_listing 通过[call]助记符累积的函数调用总数 1107
count_function_call_listing_via_prologue_analysis 通过分析函数序言累积的函数总数 845
count_function_call_listing_via_immediate_address 通过分析分支语句的目标地址累积的函数总数 921
count_function_call_listing_via_data_segment_register 通过分析数据段作为目标地址的函数调用累积的函数总数 139
count_function_call_listing_via_code_segment_register 通过分析代码段作为目标地址的函数调用累积的函数总数 0
count_function_call_listing_via_direct_register 通过分析主寄存器作为目标地址的函数调用累积的函数总数 5
count_function_call_listing_via_indirect_address 通过分析主寄存器作为目标地址的函数调用累积的函数总数 27
count_ret_addresses_via_epilogue 通过识别每个函数的最终ret累积的函数总数 1485
count_instruction_lines 二进制文件的反汇编代码中的指令总数 90557
count_NOPS 在二进制文件的反汇编代码深度检查中识别的NOP总数 895
count_INT_OVERFLOW 在二进制文件的反汇编代码深度检查中识别的中断总数 0
count_INTn 在二进制文件的反汇编代码深度检查中识别的中断总数(INT 0, 1, 2, 3除外) 5
count_INT0 在二进制文件的反汇编代码深度检查中识别的INT 0中断总数 0
count_INT1 在二进制文件的反汇编代码深度检查中识别的INT 1中断总数 0
count_INT2 在二进制文件的反汇编代码深度检查中识别的INT 2中断总数 0
count_INT3 在二进制文件的反汇编代码深度检查中识别的INT 3中断总数 3699
count_IRET 在二进制文件的反汇编代码深度检查中识别的中断返回命令总数 0
count_HLT 在二进制文件的反汇编代码深度检查中识别的停止中断命令总数 0
count_BND_CALL 在二进制文件的反汇编代码深度检查中识别的边界中断命令总数 1
count_BND_RET 在二进制文件的反汇编代码深度检查中识别的边界返回命令总数 8
count_BND_JMP_UNCONDITIONAL 在二进制文件的反汇编代码深度检查中识别的边界无条件跳转命令总数 2
count_BND_JXX_CONDITIONAL 在二进制文件的反汇编代码深度检查中识别的边界条件跳转命令总数 2
count_branching_unconditional_JMP 在二进制文件的反汇编代码深度检查中识别的无条件跳转命令总数 1877
count_branching_conditional_JXX 在二进制文件的反汇编代码深度检查中识别的条件跳转命令总数 7721
count_SYSCALL 在二进制文件的反汇编代码深度检查中识别的系统调用总数 0
count_SYSRET 在二进制文件的反汇编代码深度检查中识别的系统返回命令总数 0
count_ENTER 在二进制文件的反汇编代码深度检查中识别的进入序言命令总数 1
count_LEAVE 在二进制文件的反汇编代码深度检查中识别的离开序言命令总数 11
count_TEST 在二进制文件的反汇编代码深度检查中识别的测试命令总数 3729
count_CMP 在二进制文件的反汇编代码深度检查中识别的比较命令总数 3789
count_XOR 在二进制文件的反汇编代码深度检查中识别的异或命令总数 2020
count_CALL 在二进制文件的反汇编代码深度检查中识别的[call]函数调用命令总数 5688
count_RET 在二进制文件的反汇编代码深度检查中识别的[ret]函数返回命令总数 1477
count_ADD 在二进制文件的反汇编代码深度检查中识别的加法命令总数 2807
count_SUB 在二进制文件的反汇编代码深度检查中识别的减法命令总数 2929
count_MUL 在二进制文件的反汇编代码深度检查中识别的乘法命令总数 29
count_DIV 在二进制文件的反汇编代码深度检查中识别的除法命令总数 36
count_CDQ 在二进制文件的反汇编代码深度检查中识别的cdq命令总数 40
count_LEA 在二进制文件的反汇编代码深度检查中识别的lea命令总数 6170
count_MOV 在二进制文件的反汇编代码深度检查中识别的mov命令总数 22799
count_AND 在二进制文件的反汇编代码深度检查中识别的and命令总数 791
count_OR 在二进制文件的反汇编代码深度检查中识别的or命令总数 642
count_PUSH 在二进制文件的反汇编代码深度检查中识别的push命令总数 12915
count_POP 在二进制文件的反汇编代码深度检查中识别的pop命令总数 4168

额外特征

特征 描述 示例数据
import_functions 每个库的导入函数列表 [ADVAPI32.DLL] RegCloseKey RegCreateKeyExA RegFlushKey RegOpenKeyExA RegQueryValueExA RegSetValueExA [KERNEL32.DLL] CloseHandle CopyFileA CreateFileA CreateMutexA DeleteFileA ExitProcess FileTimeToDosDateTime FileTimeToLocalFileTime FindClose FindFirstFileA FindNextFileA FreeLibrary GetCommandLineA GetCurrentThreadId GetFileSize GetFileType GetLastError GetModuleFileNameA GetModuleHandleA GetProcessHeap GetStdHandle GetWindowsDirectoryA HeapAlloc HeapFree HeapReAlloc LocalAlloc RaiseException ReadFile RtlUnwind SetEndOfFile SetFilePointer TlsGetValue TlsSetValue UnhandledExceptionFilter WriteFile [USER32.DLL] CharNextA
count_import_functions 导入函数的总数 42
packer_1 通过第一个打包器分析例程识别的打包器类型 UPX(1.24)[NRV brute]
packer_2 通过第二个打包器分析例程识别的打包器类型 BobSoft Mini Delphi -> BoB / BobSoft
peid 使用PEiD识别的打包器或编译器 UPX -> www.upx.sourceforge.net; 1
binary_overlay_likely_packed 识别二进制文件的熵是否指示打包代码 FALSE
yara_peid 来自yara_peid扫描的结果 Borland_Delphi_40_additional; Microsoft_Visual_Cpp_v50v60_MFC; Borland_Delphi_30_additional; Borland_Delphi_30_; Borland_Delphi_Setup_Module; Borland_Delphi_40; Borland_Delphi_v40_v50; BobSoft_Mini_Delphi_BoB_BobSoft_additional; Borland_Delphi_v30; Borland_Delphi_DLL
yara_packer 来自yara_packer扫描的结果 BobSoftMiniDelphiBoBBobSoft
suspicious_overlay_data_bytes 数据覆盖中可疑字节的数量 1269760
suspicious_overlay_data_offset 可疑数据覆盖的偏移量 0x20000
binary_is_possibly_compressed_encrypted_packed 指示二进制文件是否被检测为压缩、加密或打包 FALSE
yara_apt 来自yara_apt扫描的结果 apt28_win_zebrocy_golang_loader_modified
yara_pos 来自yara_pos扫描的结果 -
搜集汇总
数据集介绍
main_image_url
构建方式
MABEL数据集的构建基于对400多个恶意软件家族及其相关二进制文件的深入分析。该数据集通过多种文件段拼接而成,形成一个综合性的数据集。每个文件段包含特定恶意软件家族的详细分析结果,涵盖了从元数据到二进制文件的深度检测特征。特别感谢vx-underground.org提供的样本和恶意软件家族归属信息,这些信息为数据集的构建提供了坚实的基础。
特点
MABEL数据集以其丰富的特征集著称,涵盖了从二进制文件的哈希值、文件大小、时间戳到深度反汇编代码的详细统计信息。此外,数据集还包括了多种扫描结果,如ClamAV和YARA的扫描结果,以及对二进制文件的多种加密和压缩状态的检测。这些特征不仅提供了对恶意软件行为的全面洞察,还为机器学习和人工智能模型的训练提供了丰富的数据支持。
使用方法
MABEL数据集适用于多种机器学习和人工智能模型的训练与评估。用户可以通过拼接多个文件段来构建完整的数据集,并利用其中的丰富特征进行模型训练。数据集的特征涵盖了从元数据到深度反汇编代码的多个层面,使得模型能够全面理解恶意软件的行为模式。此外,数据集还提供了详细的文档和示例数据,帮助用户快速上手并进行有效的数据分析和模型构建。
背景与挑战
背景概述
MABEL(Malware Analysis Benchmark for Artificial Intelligence and Machine Learning)数据集由vx-underground.org提供样本支持,旨在为机器学习和人工智能模型提供恶意软件分析基准。该数据集的初始版本包含400多个恶意软件家族及其相关二进制文件的分析结果。MABEL数据集不仅涵盖了恶意软件的基本元数据,如哈希值、文件大小和时间戳,还深入分析了二进制文件的反汇编代码,包括指令计数、函数调用和系统调用等高级特征。这些详细的数据为研究者提供了丰富的资源,以开发和验证针对恶意软件检测和分类的先进算法。
当前挑战
MABEL数据集在构建过程中面临多项挑战。首先,恶意软件样本的获取和分类需要高度的专业知识和资源,确保数据的准确性和完整性。其次,二进制文件的反汇编和特征提取过程复杂,涉及多种分析工具和技术,可能导致数据噪声和误差。此外,随着恶意软件技术的不断演变,数据集需要定期更新以保持其时效性和有效性。最后,数据集的规模和复杂性增加了模型训练和验证的计算负担,要求研究者具备强大的计算能力和高效的算法设计。
常用场景
经典使用场景
MABEL数据集在恶意软件分析领域中被广泛用于机器学习和人工智能模型的训练与评估。其经典使用场景包括但不限于:通过分析恶意软件的二进制文件特征,如哈希值、文件大小、时间戳等,以及深入的反汇编代码特征,如指令计数、函数调用列表等,构建分类模型以识别和区分不同家族的恶意软件。此外,MABEL还支持对恶意软件的动态行为进行分析,如系统调用、内存操作等,从而为研究人员提供全面的恶意软件行为画像。
衍生相关工作
基于MABEL数据集,研究人员和开发者已经衍生出多项经典工作。例如,有研究团队利用MABEL中的数据开发了高效的恶意软件分类算法,显著提升了恶意软件检测的准确率。此外,MABEL还激发了关于恶意软件行为分析的新方法,如基于动态行为的恶意软件检测和基于机器学习的恶意软件家族分类。在学术界,MABEL数据集也被广泛用于恶意软件分析课程的教学和实验,培养了大量网络安全领域的专业人才。
数据集最近研究
最新研究方向
在恶意软件分析领域,MABEL数据集的最新研究方向主要集中在利用深度学习和人工智能技术来提升恶意软件检测的准确性和效率。研究者们致力于通过分析二进制文件的元数据、汇编代码特征以及YARA扫描结果,开发更为精准的分类和检测模型。此外,随着网络安全威胁的不断演变,研究者们也在探索如何利用MABEL数据集中的多样化特征,结合实时更新的恶意软件库,构建动态适应的防御系统。这些研究不仅有助于提升现有检测工具的性能,还为未来开发更为智能和自适应的安全解决方案奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作