Android Malware Genome Project, M0Droid Dataset, The Drebin Dataset, A Dataset based on ContagioDump, AndroMalShare|移动安全数据集|恶意软件分析数据集
收藏github2024-05-14 更新2024-05-31 收录
下载链接:
https://github.com/traceflight/Android-Malware-Datasets
下载链接
链接失效反馈资源简介:
这些数据集主要用于研究和分析Android平台上的恶意软件,包括但不限于恶意软件的家族、行为模式和特征。每个数据集都有其特定的收集方法和研究目的,如Android Malware Genome Project收集了1200多个恶意软件样本,M0Droid Dataset则专注于行为模式识别。
These datasets are primarily utilized for the research and analysis of malware on the Android platform, encompassing but not limited to malware families, behavioral patterns, and characteristics. Each dataset possesses its unique collection methodology and research objectives. For instance, the Android Malware Genome Project has amassed over 1,200 malware samples, whereas the M0Droid Dataset focuses on the identification of behavioral patterns.
创建时间:
2016-03-02
原始信息汇总
数据集概述
1. Android Malware Genome Project
- 描述: 该项目收集了超过1,200个Android恶意软件样本,覆盖了2010年8月至2011年10月期间的大多数Android恶意软件家族。
- 出版物: Yajin Zhou, Xuxian Jiang. Dissecting Android Malware: Characterization and Evolution. Proceedings of the 33rd IEEE Symposium on Security and Privacy (Oakland 2012).
2. M0Droid Dataset
- 描述: M0Droid是一个用于识别和分类Android恶意软件的工具,通过内核级钩子捕获应用程序的所有系统调用请求,并生成行为签名。
- 出版物: Damshenas M, Dehghantanha A, Choo K K R, et al. M0droid: An android behavioral-based malware detection model. Journal of Information Privacy and Security, 2015, 11(3): 141-157.
3. The Drebin Dataset
- 描述: 包含5,560个来自179个不同恶意软件家族的应用程序,收集时间为2010年8月至2012年10月。
- 出版物: Arp D, Spreitzenbarth M, Hubner M, et al. Drebin: Efficient and explainable detection of android malware in your pocket. Proc. of 17th Network and Distributed System Security Symposium, NDSS. 14.
4. A Dataset based on ContagioDump
- 描述: 该数据集包含189个在野外发现的Android恶意软件,根据其主要行为进行分类。
5. AndroMalShare
- 描述: 专注于分享Android恶意软件样本的项目,提供样本的统计信息和详细报告。
6. Kharon Malware Dataset
- 描述: 完全逆向和文档化的恶意软件集合,用于评估研究实验。
- 出版物: CIDRE, EPI. Kharon dataset: Android malware under a microscope. Learning from Authoritative Security Experiment Results (2016): 1.
7. AMD Project
- 描述: 包含24,553个样本,分为135种类型,涵盖71个恶意软件家族,时间跨度为2010至2016年。
- 出版物: Li Y, Jang J, Hu X, et al. Android malware clustering through malicious payload mining. International Symposium on Research in Attacks, Intrusions, and Defenses. Springer, Cham, 2017: 192-214.
8. AAGM Dataset
- 描述: 通过在真实智能手机上安装Android应用半自动化捕获的数据集,包含1900个应用程序。
- 出版物: Arash Habibi Lashkari, Andi Fitriah A.Kadir, Hugo Gonzalez, Kenneth Fon Mbah and Ali A. Ghorbani, Towards a Network-Based Framework for Android Malware Detection and Characterization, In the proceeding of the 15th International Conference on Privacy, Security and Trust, PST, Calgary, Canada, 2017.
9. Android PRAGuard Dataset
- 描述: 包含10479个样本,通过七种不同的混淆技术对MalGenome和Contagio Minidump数据集进行混淆。
- 出版物: Davide Maiorca, Davide Ariu, Igino Corona, Marco Aresu and Giorgio Giacinto. Stealth attacks: an extended insight into the obfuscation effects on Android malware. Computers and Security, vol. 51, pp. 16-31, 2015.
10. AndroZoo
- 描述: 包含5,781,781个不同的APK,每个APK都由数十种不同的防病毒产品分析,以确定哪些应用程序被检测为恶意软件。
- 出版物: K. Allix, T. F. Bissyandé, J. Klein, and Y. Le Traon. AndroZoo: Collecting Millions of Android Apps for the Research Community. Mining Software Repositories (MSR) 2016.
AI搜集汇总
数据集介绍

构建方式
这些数据集的构建方式各具特色,涵盖了从恶意软件样本的收集、分类到行为分析的多个环节。例如,Android Malware Genome Project通过系统化的方法,收集了超过1,200个恶意软件样本,覆盖了从2010年8月至2011年10月的主要Android恶意软件家族。M0Droid Dataset则通过内核级钩子捕获应用程序的系统调用请求,生成行为签名以识别和分类恶意软件。Drebin Dataset包含了5,560个应用程序,来自179个不同的恶意软件家族,这些样本由MobileSandbox项目提供。这些数据集的构建均经过严格的筛选和分类,确保了数据的多样性和代表性。
特点
这些数据集的特点在于其多样性和深度。Android Malware Genome Project提供了从2010年到2011年的恶意软件样本,覆盖了大多数已知的恶意软件家族,为研究提供了时间序列上的连续性。M0Droid Dataset通过行为模式识别工具,能够精确地分类和识别恶意软件,增强了数据集的实用性。Drebin Dataset则通过详细的应用程序分析,提供了丰富的恶意软件家族信息,有助于深入理解Android恶意软件的演变。这些数据集不仅数量庞大,而且分类细致,为研究者提供了丰富的分析材料。
使用方法
这些数据集主要用于学术研究和安全分析,研究者可以通过分析恶意软件的行为模式、代码特征等,开发新的检测和防御技术。例如,研究者可以使用Android Malware Genome Project的数据集来研究恶意软件的进化和变异模式,或者利用M0Droid Dataset的行为签名来训练机器学习模型,以提高恶意软件检测的准确性。Drebin Dataset则可以用于开发基于特征的恶意软件检测系统。此外,这些数据集还可以用于教育和培训,帮助学生和安全专家理解Android恶意软件的复杂性和多样性。
背景与挑战
背景概述
随着移动设备的普及,Android平台上的恶意软件问题日益严重,成为信息安全领域的重要研究课题。Android Malware Genome Project、M0Droid Dataset、The Drebin Dataset等多个数据集应运而生,旨在系统化地分析和分类Android恶意软件。这些数据集的创建时间跨度从2010年到2016年,主要研究人员包括Yajin Zhou、Xuxian Jiang等,研究机构涵盖了多个国际知名大学和研究机构。这些数据集的核心研究问题集中在Android恶意软件的特征提取、行为分析及分类上,为恶意软件检测和防御提供了宝贵的研究资源,极大地推动了Android安全领域的研究进展。
当前挑战
尽管这些数据集为Android恶意软件研究提供了丰富的资源,但仍面临诸多挑战。首先,恶意软件的快速演变使得数据集的更新和维护成为一项持续的挑战。其次,恶意软件的多样性和复杂性增加了特征提取和分类的难度,尤其是在面对新型恶意软件时。此外,数据集的构建过程中,如何确保样本的全面性和代表性,以及如何处理隐私和安全问题,也是亟待解决的难题。这些挑战不仅影响了数据集的质量,也对恶意软件检测技术的有效性提出了更高的要求。
常用场景
经典使用场景
在移动安全领域,Android恶意软件数据集被广泛用于恶意软件的分类与检测研究。这些数据集包含了大量从2010年至2016年间收集的恶意软件样本,涵盖了多种恶意软件家族。研究者通过分析这些样本的行为特征、系统调用模式以及代码结构,能够构建高效的检测模型,从而识别和分类新型恶意软件。
实际应用
在实际应用中,这些数据集被广泛应用于开发和测试恶意软件检测工具。例如,安全厂商利用这些数据集训练机器学习模型,以提高其产品的检测准确率。同时,这些数据集也为政府和企业的安全团队提供了重要的参考,帮助他们评估和改进现有的安全防护措施。此外,学术界与工业界的合作也通过这些数据集得以加强,推动了移动安全技术的实际应用与落地。
衍生相关工作
基于这些数据集,研究者们开展了多项经典工作。例如,Drebin数据集启发了基于行为特征的恶意软件检测方法,而M0Droid数据集则推动了内核级系统调用监控技术的发展。此外,AndroZoo数据集的大规模应用促进了多源数据融合与分析的研究。这些衍生工作不仅丰富了移动安全领域的研究内容,还为后续的研究提供了宝贵的经验和方法论支持。
以上内容由AI搜集并总结生成
