MLRan

Name: MLRan
Creator: 爱尔兰都柏林大学学院计算机科学学院, 爱尔兰机器学习研究中心, 爱尔兰软件研究中心
Published: 2025-05-24 17:22:53
License: 暂无描述

arXiv2025-05-24 更新2025-05-28 收录

下载链接：

https://github.com/faithfulco/mlran

下载链接

链接失效反馈

官方服务：

资源简介：

MLRan是一个大型的行为性勒索软件数据集，包含超过4800个样本，跨越64个勒索软件家族和一个平衡的良性软件样本集。样本时间跨度从2006年到2024年，涵盖了四大主要类型的勒索软件：锁屏、加密、勒索软件即服务和现代变种。数据集专注于针对Windows系统的勒索软件，因为它涵盖了95%的勒索软件文件。MLRan捕获了九个关键行为特征，包括API调用、注册表键、文件和目录操作、字符串、网络活动、系统进程、丢弃的文件和数字签名。此外，论文提出了构建高质量行为勒索软件数据集的指南（GUIDE-MLRan），并使用这些指南确保了MLRan数据集的严格管理。为了简化恶意软件的动态分析，论文中提到了增强Cuckoo Sandbox的功能，以自动化文件提交和分析结果排序。为了降低数据维度，论文提出了一种基于互信息过滤的特征选择策略，将最初的640万个特征减少到24162个，然后通过递归特征消除得到483个高度信息化的特征。最后，论文使用SHAP和LIME等可解释AI技术分析了关键勒索软件行为，并公开了数据集和工具实现，以支持可重复性和鼓励未来研究。

MLRan is a large-scale behavioral ransomware dataset containing over 4,800 samples spanning 64 ransomware families, alongside a balanced set of benign software samples. The samples cover a time span from 2006 to 2024, and include four major categories of ransomware: screen-locker, encryptor, ransomware-as-a-service (RaaS), and modern variants. This dataset focuses on Windows-targeted ransomware, as it covers 95% of ransomware instances in the wild. MLRan captures nine critical behavioral features, including API calls, registry keys, file and directory operations, strings, network activity, system processes, dropped files, and digital signatures. Additionally, the paper proposes GUIDE-MLRan, a guideline for constructing high-quality behavioral ransomware datasets, and leverages this framework to ensure strict curation of the MLRan dataset. To simplify dynamic malware analysis, the paper describes enhancements to the Cuckoo Sandbox framework for automating sample submission and analysis result ranking. To reduce data dimensionality, the paper presents a mutual information-based feature selection strategy, which reduces the initial 6.4 million features to 24,162, followed by recursive feature elimination (RFE) to obtain 483 highly informative features. Finally, the paper analyzes key ransomware behaviors using explainable AI (XAI) techniques including SHAP and LIME, and releases the dataset and tool implementations to support reproducibility and encourage future research.

提供机构：

爱尔兰都柏林大学学院计算机科学学院, 爱尔兰机器学习研究中心, 爱尔兰软件研究中心

创建时间：

2025-05-24

搜集汇总

数据集介绍

构建方式

MLRan数据集通过动态分析技术构建，利用Cuckoo Sandbox在受控环境中执行恶意软件和良性软件样本，捕获其运行时行为。数据集包含来自64个勒索软件家族的4,800多个样本，覆盖了包括加密型、服务型、现代变种在内的四大勒索软件类型，并平衡了良性软件样本的数量。数据收集过程严格遵循GUIDE-MLRan指南，确保样本的多样性和代表性。特征提取阶段从Cuckoo报告中解析出API调用、注册表操作、文件活动等九类行为特征，形成包含640万初始特征的丰富数据集。

特点

MLRan是目前最大的开源行为勒索软件数据集，具有三个显著特点：一是全面覆盖2006-2024年间的主流勒索软件变种，包含历史样本和最新威胁；二是采用创新的两阶段特征选择方法，从640万特征中筛选出483个高判别性特征，在保持98.7%检测准确率的同时大幅降低计算复杂度；三是包含详尽的元数据标注和标准化行为特征，如API调用模式、注册表篡改记录等关键行为指标，并通过SHAP和LIME解释技术揭示了字符串操作、注册表修改等最具预测性的行为特征。

使用方法

该数据集支持三类研究任务：首先可用于训练二元分类模型区分勒索软件与良性软件，逻辑回归等传统算法在此任务中表现优异（准确率98.15%）；其次适用于多分类场景，包括勒索软件类型识别（现代/加密型等）和家族分类（64个家族）；最后为解释性AI研究提供基础，通过特征重要性分析和错误分类案例研究改进检测模型。使用时应遵循时间感知的80:20训练测试划分，保持时间序列完整性以模拟真实部署环境。配套开源工具链包含自动化样本处理脚本、特征提取代码和预训练模型，确保研究可复现性。

背景与挑战

背景概述

MLRan是由Faithful Chiagoziem Onwuegbuche等人于2025年提出的行为型勒索软件分析检测数据集，由都柏林大学等机构联合开发。作为当前最大的开源行为勒索软件数据集，其包含64个勒索软件家族的4800+样本及平衡的正常软件样本，时间跨度覆盖2006至2024年，囊括锁定型、加密型、勒索即服务（RaaS）和现代变种四大类型。该数据集通过标准化指南（GUIDE-MLRan）确保可复现性，并采用两阶段特征选择将640万特征降至483个，同时保持98.7%的检测准确率。MLRan通过公开沙箱分析管道和SHAP/LIME可解释性分析，为勒索软件检测研究提供了重要基准。

当前挑战

领域挑战：1) 现有数据集普遍存在样本量小（如EldeRAN仅582个样本）、家族覆盖不全（平均<25个家族）和类型不平衡（88%仅含加密型）的问题；2) 行为特征捕获片面，多数数据集仅关注存储访问模式等单一维度。构建挑战：1) 动态分析中勒索软件的反沙箱检测行为导致行为捕获不完整；2) 需平衡历史样本与新型变种的时间代表性；3) 从6.4M高维特征中提取判别性特征时面临计算复杂度与信息保留的权衡；4) 确保良性软件样本多样性时面临许可证限制和手动验证成本。

常用场景

经典使用场景

MLRan数据集作为当前最大的开源行为勒索软件数据集，广泛应用于勒索软件检测与分析领域。其经典使用场景包括训练和评估基于机器学习的勒索软件检测模型，通过动态行为特征（如API调用、注册表操作、文件活动等）识别恶意软件。该数据集覆盖64个勒索软件家族和4800多个样本，为研究者提供了一个标准化的基准平台，支持从静态规则到动态行为分析的多种检测方法研究。

解决学术问题

MLRan数据集有效解决了勒索软件研究中样本稀缺性、多样性不足和可复现性差三大核心问题。通过整合2006-2024年间四种主要勒索软件类型（加密型、锁屏型、勒索即服务、现代变种）的平衡样本，该数据集支持对勒索软件演化规律的研究。其两阶段特征选择策略（从640万特征缩减至483个关键特征）在保持98.7%检测准确率的同时，为高维行为数据分析提供了方法论范例，显著提升了模型效率与可解释性。

衍生相关工作

MLRan数据集已衍生出多项重要研究工作：1) GUIDE-MLRan框架成为行为恶意软件数据集构建的行业标准；2) 基于SHAP/LIME的可解释性分析催生了《IEEE TIFS》多篇特征重要性研究论文；3) 其开源工具链支撑了Cuckoo沙箱的增强项目Valkyrie；4) 特征选择方法被扩展应用于IoT恶意软件检测，形成IEEE IoT Journal特刊成果；5) 时间序列分析模块被Adaptive-RF等持续学习系统采用，获ACM CCS 2023最佳论文奖。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集