five

Android Malware Datasets|Android恶意软件数据集|信息安全数据集

收藏
github2019-10-31 更新2024-05-31 收录
Android恶意软件
信息安全
下载链接:
https://github.com/anjinwoong/Android-Malware-Datasets
下载链接
链接失效反馈
资源简介:
包含多个流行的Android恶意软件数据集,用于研究和分析Android平台上的恶意软件。

This dataset encompasses a collection of widely recognized Android malware datasets, designed for the investigation and analysis of malicious software on the Android platform.
创建时间:
2019-10-31
原始信息汇总

数据集概述

1. Android Malware Genome Project

  • 描述: 该项目收集了超过1,200个Android恶意软件样本,涵盖了2010年8月至2011年10月期间的大多数Android恶意软件家族。
  • 出版物: Dissecting Android Malware: Characterization and Evolution. Yajin Zhou, Xuxian Jiang. Proceedings of the 33rd IEEE Symposium on Security and Privacy (Oakland 2012).
  • 主页: http://www.malgenomeproject.org (已停止数据集共享)

2. M0Droid Dataset

  • 描述: M0Droid是一个用于识别和分类Android恶意软件的工具,通过捕获应用程序的系统调用请求来生成行为签名。
  • 出版物: M0droid: An android behavioral-based malware detection model. Damshenas M, Dehghantanha A, Choo K K R, et al. Journal of Information Privacy and Security, 2015, 11(3): 141-157.
  • 主页: http://cyberscientist.org/m0droid-dataset/

3. The Drebin Dataset

  • 描述: 该数据集包含5,560个来自179个不同恶意软件家族的应用程序,收集时间为2010年8月至2012年10月。
  • 出版物: Drebin: Efficient and explainable detection of android malware in your pocket. Arp D, Spreitzenbarth M, Hubner M, et al. Proc. of 17th Network and Distributed System Security Symposium, NDSS. 14.
  • 主页: http://user.informatik.uni-goettingen.de/~darp/drebin/

4. A Dataset based on ContagioDump

5. AndroMalShare

6. Kharon Malware Dataset

  • 描述: Kharon数据集是一个完全逆向和文档化的恶意软件集合,用于评估研究实验。
  • 出版物: Kharon dataset: Android malware under a microscope. CIDRE, EPI. Learning from Authoritative Security Experiment Results (2016): 1.
  • 主页: http://kharon.gforge.inria.fr/dataset/

7. AMD Project

  • 描述: AMD包含24,553个样本,分为135种类型,涵盖71个恶意软件家族,时间跨度为2010年至2016年。
  • 出版物: Android malware clustering through malicious payload mining. Li Y, Jang J, Hu X, et al. International Symposium on Research in Attacks, Intrusions, and Defenses. Springer, Cham, 2017: 192-214.
  • 主页: http://amd.arguslab.org

8. AAGM Dataset

  • 描述: AAGM数据集通过在真实智能手机上安装Android应用程序半自动化生成,包含1900个应用程序。
  • 出版物: Towards a Network-Based Framework for Android Malware Detection and Characterization. Arash Habibi Lashkari, Andi Fitriah A.Kadir, Hugo Gonzalez, Kenneth Fon Mbah and Ali A. Ghorbani. PST, 2017.
  • 主页: http://www.unb.ca/cic/datasets/android-adware.html

9. Android PRAGuard Dataset

  • 描述: 该数据集包含10479个样本,通过七种不同的混淆技术混淆MalGenome和Contagio Minidump数据集得到。
  • 出版物: Stealth attacks: an extended insight into the obfuscation effects on Android malware. Davide Maiorca, Davide Ariu, Igino Corona, Marco Aresu and Giorgio Giacinto. Computers and Security, 2015.
  • 主页: http://pralab.diee.unica.it/en/AndroidPRAGuardDataset

10. AndroZoo

  • 描述: AndroZoo是一个包含5,781,781个不同APK的集合,每个APK都由多个反病毒产品分析以确定其是否为恶意软件。
  • 出版物: AndroZoo: Collecting Millions of Android Apps for the Research Community. K. Allix, T. F. Bissyandé, J. Klein, and Y. Le Traon. Mining Software Repositories (MSR) 2016.
  • 主页: https://androzoo.uni.lu/
AI搜集汇总
数据集介绍
main_image_url
构建方式
Android Malware Datasets 数据集的构建基于多个项目和研究成果,涵盖了从2010年至2016年间的多种Android恶意软件样本。这些数据集通过系统化的收集和分类,包括从公开的恶意软件项目如Android Malware Genome Project、M0Droid Dataset、Drebin Dataset等,以及通过内核级钩子捕获系统调用行为的方式,构建了详尽的恶意软件行为模式。此外,部分数据集如AndroZoo,还通过从Google Play等应用市场收集APK文件,并结合多款反病毒产品的检测结果,进一步丰富了数据集的多样性和覆盖面。
特点
该数据集的特点在于其广泛的时间跨度和多样化的恶意软件家族覆盖,从早期的恶意软件到近年来的新型威胁均有涉及。此外,数据集不仅包含恶意软件的静态特征,如代码结构和权限请求,还通过行为分析捕捉了恶意软件的动态行为,如系统调用和网络活动。部分数据集还采用了混淆技术,以模拟实际环境中的复杂性,增强了数据集在研究中的实用性和挑战性。
使用方法
Android Malware Datasets 数据集适用于多种研究场景,包括但不限于恶意软件检测、行为分析、权限滥用检测和混淆技术研究。研究者可以通过下载这些数据集,利用机器学习算法、深度学习模型或其他分析工具,对恶意软件样本进行分类、检测和行为预测。此外,数据集的开放性也鼓励了可重复性实验,使得研究结果更加透明和可验证。使用时,建议结合具体的研究问题,选择合适的子数据集进行分析和实验。
背景与挑战
背景概述
Android Malware Datasets 是由多个研究项目和机构共同构建的,旨在系统化地收集和分类Android平台上的恶意软件。该数据集的核心研究问题集中在Android恶意软件的特征化与演化分析,主要研究人员包括Yajin Zhou、Xuxian Jiang等,其研究成果在2012年的IEEE Symposium on Security and Privacy上发表。数据集的创建时间跨度从2010年至2016年,涵盖了多个恶意软件家族的样本,为Android安全领域的研究提供了丰富的资源。这些数据集不仅帮助研究人员理解恶意软件的行为模式,还推动了Android恶意软件检测技术的发展,对提升移动设备的安全性具有重要意义。
当前挑战
Android Malware Datasets 在构建和应用过程中面临多项挑战。首先,恶意软件的多样性和快速演化为数据集的更新和维护带来了巨大压力,研究人员需要持续收集和分析新的恶意样本以保持数据集的时效性。其次,恶意软件的隐蔽性和复杂性使得特征提取和分类变得困难,尤其是在面对高级持续性威胁(APT)时,传统的检测方法可能失效。此外,数据集的构建过程中还涉及到隐私和法律问题,如何在确保数据安全的前提下共享和使用这些敏感信息是一个亟待解决的难题。最后,如何有效利用这些数据集进行模型训练和验证,以提高恶意软件检测的准确性和鲁棒性,也是当前研究的重点和难点。
常用场景
经典使用场景
Android Malware Datasets 数据集在移动安全领域中具有广泛的应用,主要用于分析和检测Android平台上的恶意软件。通过该数据集,研究人员可以系统地研究不同恶意软件家族的行为模式,从而开发出更为精准的检测算法。例如,数据集中的样本涵盖了从2010年到2016年的多种恶意软件,为研究恶意软件的演变和变种提供了丰富的资源。
衍生相关工作
基于 Android Malware Datasets 数据集,衍生了许多经典的研究工作。例如,Drebin 项目利用该数据集开发了高效的Android恶意软件检测系统,而AndroZoo则通过大规模收集和分析APK文件,揭示了恶意软件的分布和演变趋势。此外,Kharon Malware Dataset 进一步细化了恶意软件的逆向工程和文档化工作,为恶意软件分析提供了更为详尽的资源。这些衍生工作不仅丰富了数据集的应用场景,还推动了移动安全领域的技术进步。
数据集最近研究
最新研究方向
在移动安全领域,Android恶意软件数据集的研究正朝着更精细化的分类和行为分析方向发展。随着Android平台恶意软件的多样性和复杂性不断增加,研究者们致力于通过深度学习和行为特征提取等先进技术,提升恶意软件检测的准确性和效率。此外,数据集的构建和共享也成为推动该领域研究的重要环节,如AndroZoo等大规模数据集的发布,为研究者提供了丰富的实验资源,促进了跨机构的合作与研究成果的复现。这些研究不仅有助于提升Android设备的安全防护水平,也为全球移动安全领域的技术进步提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录