MH-1M
收藏arXiv2025-11-01 更新2025-11-06 收录
下载链接:
https://dataverse.harvard.edu/
下载链接
链接失效反馈官方服务:
资源简介:
MH-1M是一个包含1,340,515个Android应用的数据集,涵盖了广泛的应用特征和丰富的元数据。数据集来自AndroZoo仓库,覆盖了从2010年到2024年的14年。MH-1M数据集不仅规模庞大,还包含了更新和全面的信息,对于推进现代恶意软件检测方法至关重要。此外,MH-1M提供了在提取和分析过程中生成的广泛元数据,包括详细的特征提取程序和相应的分析结果,从而提高了研究的透明度和可重复性。数据集总大小超过400GB,包含22,394个API调用、407个意图、232个操作码和214个权限,以及SHA-256哈希值、文件名、包名、编译API、VirusTotal报告等额外属性。
MH-1M is a dataset comprising 1,340,515 Android applications, covering a wide range of app characteristics and rich metadata. This dataset is sourced from the AndroZoo repository, spanning a 14-year period from 2010 to 2024. Not only is the MH-1M dataset large in scale, but it also contains up-to-date and comprehensive information, which is critical for advancing modern malware detection methods. Furthermore, MH-1M provides extensive metadata generated during the extraction and analysis processes, including detailed feature extraction procedures and corresponding analysis results, thereby enhancing the transparency and reproducibility of research. The total size of the dataset exceeds 400 GB, and it includes 22,394 API calls, 407 intents, 232 opcodes, 214 permissions, as well as additional attributes such as SHA-256 hashes, filenames, package names, compiled APIs, and VirusTotal reports.
提供机构:
University of Brasilia
创建时间:
2025-11-01
搜集汇总
数据集介绍
构建方式
MH-1M数据集的构建采用了自动化流水线方法,通过AMGenerator工具实现三个核心模块的协同工作。采集模块从AndroZoo存储库下载Android应用程序包,覆盖2010至2024年间的134万样本;特征提取模块利用AndroGuard进行静态分析,提取包括22,394个API调用、407个意图、232个操作码和214个权限在内的多维特征;标注模块通过VirusTotal平台整合65个检测引擎的结果,采用动态重分析机制确保标签时效性,最终通过AMExplorer工具将原始数据整合为结构化数据集。
特点
该数据集以其规模宏大和特征全面性著称,包含1,340,515个应用样本,其中恶意软件占比8.9%,真实反映了现实环境中的分布比例。特征维度涵盖静态行为的多层次表征,包括意图通信机制、权限请求模式、字节码操作指令及API调用序列,同时提供完整的VirusTotal扫描报告和元数据。时间跨度达14年的样本分布支持恶意软件演化研究,而超过400GB的原始数据量为深度学习和大语言模型研究提供了丰富素材。
使用方法
研究者在应用该数据集时,可通过NumPy加载压缩的.npz格式文件获取特征矩阵和元数据。基于VirusTotal检测统计量,可采用阈值策略进行样本标注(推荐≥4个引擎检测为恶意),支持监督学习中的分类任务。数据集支持时间分层抽样以评估模型泛化能力,高维特征空间便于开展特征选择和降维研究。对于大规模数据处理,建议采用内存映射技术或分布式计算框架,同时可利用UMAP投影进行恶意软件家族的聚类分析。
背景与挑战
背景概述
随着Android平台的普及与开源特性,移动恶意软件威胁日益严峻,传统检测方法面临严峻挑战。在此背景下,Hendrio Bragança等研究人员于2025年正式发布MH-1M数据集,该数据集收录了2010至2024年间134万Android应用样本,涵盖22,810种特征属性。作为当前规模最大的Android恶意软件研究资源,MH-1M通过集成VirusTotal多引擎检测系统与自动化数据构建工具链,为机器学习、深度学习及大语言模型在网络安全领域的应用提供了重要基础。该数据集凭借其跨十四年的时间跨度与多维特征体系,有效推动了恶意软件演化规律与检测技术的前沿探索。
当前挑战
在恶意软件检测领域,现有数据集普遍面临样本规模有限、特征维度单一与时间跨度不足等核心问题。MH-1M构建过程中需攻克三重技术难关:首先,数据采集需平衡样本时效性与历史覆盖度,通过时间分层采样策略确保数据代表性;其次,特征提取涉及22,394个API调用与407种意图等异构数据融合,需解决高维特征空间下的计算效率与存储优化;最后,标签标注依赖VirusTotal多引擎共识机制,需设计动态阈值策略以应对检测引擎间的判定差异。这些挑战的突破为构建具有时空泛化能力的恶意软件检测模型奠定了坚实基础。
常用场景
经典使用场景
在Android恶意软件检测领域,MH-1M数据集为机器学习模型训练提供了前所未有的实验平台。该数据集包含134万样本和2.3万维特征,其规模远超传统数据集,特别适用于深度学习模型的训练与验证。研究人员可利用其丰富的API调用、权限声明和操作码特征,构建高精度的恶意软件分类器,并通过时间跨度达14年的样本分布研究恶意软件的演化规律。
解决学术问题
MH-1M有效解决了Android安全研究中的多个核心学术问题。其大规模标注数据缓解了传统数据集样本不足导致的模型过拟合问题,多维特征覆盖突破了单一特征类型的检测局限。通过集成VirusTotal多引擎检测结果,该数据集提供了可靠的标注基准,显著降低了因标注噪声引起的模型性能偏差,为恶意软件检测的可重复研究奠定了坚实基础。
衍生相关工作
基于MH-1M数据集已衍生出多项创新研究。在特征工程方向,研究者开发了针对高维稀疏特征的降维算法;在模型架构方面,出现了融合静态特征与动态行为的混合检测框架;在领域适应领域,诞生了解决概念漂移问题的增量学习方案。这些工作共同推动了Android恶意软件检测技术向更精准、更鲁棒的方向发展。
以上内容由遇见数据集搜集并总结生成



