MELD-DS-448

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/MeldProject/MELD-DS-448

下载链接

链接失效反馈

官方服务：

资源简介：

MELD-DS-455数据集包含从2020年4月至2025年8月收集的25,722个恶意软件样本，涵盖454个不同的恶意软件家族。数据集呈现出长尾分布，大部分家族样本数量较少。数据集提供了四种分析构件：CAPE JSON报告、Markdown结构化报告、API调用序列和ASM反汇编文件，以支持动态和静态分析以及混合方法的研究。

The MELD-DS-455 dataset contains 25,722 malware samples collected from April 2020 to August 2025, spanning 454 distinct malware families. The dataset exhibits a long-tailed distribution, with most families having a small number of samples. The dataset provides four types of analysis artifacts: CAPE JSON reports, Markdown structured reports, API call sequences, and ASM disassembly files, to support research on dynamic analysis, static analysis, and hybrid analytical approaches.

创建时间：

2025-08-25

原始信息汇总

MELD-DS-448 数据集概述

数据集基本信息

数据集名称：MELD-DS-448
许可证：CC BY-NC-SA 4.0
语言：英语
领域：恶意软件、网络安全
平台：Windows
规模：10K<n<100K

核心统计信息

恶意样本总数：26,166个
恶意软件家族数量：448个
平均每家族样本数：58.4个
样本数量中位数：3个

家族分布特征

单样本家族：160个（35.7%）
小规模家族（≤5个样本）：290个（64.7%）
大规模家族（≥100个样本）：36个（8.0%）
头部家族集中度：前5大家族覆盖30.1%样本，前10大家族覆盖41.5%样本

主要家族分布

LummaStealer：2,966个样本（11.3%）
Formbook：2,091个样本（8.0%）
SnakeKeylogger：1,045个样本（4.0%）

时间演化特征

时间范围：2020年4月至2025年8月
主要集中期：2024-2025年（96.8%样本）
2025年样本占比：77.1%（20,186个样本）
2024年样本占比：19.7%（5,146个样本）

标准化分析数据

每个样本提供四种类型的标准化分析数据：

1. CAPE JSON报告

完整结构化分析结果，包含行为指标、网络活动、文件系统操作、注册表修改和进程执行轨迹。

2. Markdown结构化报告

转换为LLM友好的结构化Markdown格式，包含完整行为事件、API调用模式、进程树信息和时序分析。

3. API调用序列

按时间顺序排列的Windows API函数调用序列，包括参数和返回值。

4. ASM反汇编文件

静态反汇编输出，提供低级指令序列和控制流信息。

数据质量与覆盖度

完整元数据覆盖：26,166个样本（100%）
ASM文件覆盖度：25,805个样本（98.62%）
缺失ASM文件：361个样本（1.38%），记录于asm_loss.csv
文件大小范围：87.3 KB 至 301.3 MB（中位数：3.6 MB）
数据集总大小：479 GB

文件结构

数据集文件组织在Dataset/目录下，大文件分割为4GB卷以便下载：

文件恢复说明

ASM反汇编文件（27GB）：使用7z x asm.7z.001解压
API调用序列（8.9GB）：使用7z x api_sequence.7z.001解压
CAPE JSON报告（8.5GB）：使用7z x cape_reports.7z.001解压
Markdown报告（67MB）：使用7z x cape_reports_malicious_md.7z解压

系统要求

解压工具：7-Zip
磁盘空间：至少500GB空闲空间
内存：推荐8GB+ RAM

搜集汇总

数据集介绍

构建方式

在恶意软件分析领域，MELD-DS-448数据集通过系统化采集与标准化处理构建而成。该数据集涵盖2020年4月至2025年8月期间的26,166个恶意样本，覆盖448个不同家族，每个样本均以SHA-256哈希值唯一标识并配备精确的时间戳。所有样本均经由统一的CAPE沙箱在Windows 10 x64虚拟环境中进行动态分析，生成包括结构化JSON报告、Markdown格式摘要、API调用序列及反汇编文件在内的多模态分析成果，确保了数据的一致性与可复现性。

特点

该数据集呈现出典型的恶意软件生态长尾分布特征，35.7%的家族为单样本家族，64.7%的家族样本量不超过5个，而头部家族集中现象显著，前5大家族覆盖30.1%的样本。时间维度上，96.8%的样本集中于2024至2025年，反映出恶意软件快速演化的趋势。数据集提供四类标准化分析产物，包括适于大语言模型处理的Markdown报告、精细API调用序列和静态反汇编代码，为多模态分析提供坚实基础。

使用方法

研究者可通过解压分卷压缩的分析文件获取原始数据，其中API调用序列和JSON报告适用于行为建模与机器学习，Markdown报告支持语义级分析，反汇编文件则服务于静态代码研究。使用前需配置7-Zip解压工具及充足存储空间，并遵循CC BY-NC-SA 4.0许可协议。数据集支持恶意软件家族分类、动态行为分析、时间演化建模等多类网络安全研究任务。

背景与挑战

背景概述

恶意软件分析领域长期面临着样本稀缺与分类体系不完善的挑战，MELD-DS-448数据集由网络安全研究团队于2020年至2025年间构建，涵盖26,166个恶意样本与448个家族。该数据集通过CAPE沙箱动态分析技术生成标准化行为报告，旨在解决恶意软件家族演化追踪与检测模型泛化能力不足的核心问题，为当代威胁情报生态提供关键数据支撑。

当前挑战

该数据集需应对恶意软件家族长尾分布带来的分类挑战，其中35.7%为单样本家族，64.7%家族样本量不足5个，导致机器学习模型易受样本不平衡影响。构建过程中需克服动态分析环境逃逸、反汇编失败（1.38%样本缺失ASM文件）及多维度数据标准化整合等技术难题，同时需确保时空维度演化特征的完整性。

常用场景

经典使用场景

在恶意软件检测研究领域，MELD-DS-448数据集为动态行为分析提供了标准化实验基准。研究者通过其提供的CAPE沙箱分析报告和API调用序列，能够系统性地构建恶意代码家族分类模型，特别适用于处理新兴恶意软件变种的识别挑战。该数据集覆盖的448个家族及其时序演化特征，为模型泛化能力验证提供了重要支撑。

衍生相关工作

基于该数据集的多模态特征，研究者开发了融合静态与动态分析的混合检测框架。其API调用序列催生了时序神经网络在恶意软件检测中的应用，而标准化Markdown报告则推动了大型语言模型在安全分析中的适配研究。这些工作显著提升了恶意软件家族 attribution 的准确性和可解释性。

数据集最近研究