Android Malware Datasets|Android恶意软件数据集|信息安全数据集
收藏数据集概述
1. Android Malware Genome Project
- 描述: 该项目收集了超过1,200个Android恶意软件样本,涵盖了2010年8月至2011年10月期间的大多数Android恶意软件家族。
- 出版物: Dissecting Android Malware: Characterization and Evolution. Yajin Zhou, Xuxian Jiang. Proceedings of the 33rd IEEE Symposium on Security and Privacy (Oakland 2012).
- 主页: http://www.malgenomeproject.org (已停止数据集共享)
2. M0Droid Dataset
- 描述: M0Droid是一个用于识别和分类Android恶意软件的工具,通过捕获应用程序的系统调用请求来生成行为签名。
- 出版物: M0droid: An android behavioral-based malware detection model. Damshenas M, Dehghantanha A, Choo K K R, et al. Journal of Information Privacy and Security, 2015, 11(3): 141-157.
- 主页: http://cyberscientist.org/m0droid-dataset/
3. The Drebin Dataset
- 描述: 该数据集包含5,560个来自179个不同恶意软件家族的应用程序,收集时间为2010年8月至2012年10月。
- 出版物: Drebin: Efficient and explainable detection of android malware in your pocket. Arp D, Spreitzenbarth M, Hubner M, et al. Proc. of 17th Network and Distributed System Security Symposium, NDSS. 14.
- 主页: http://user.informatik.uni-goettingen.de/~darp/drebin/
4. A Dataset based on ContagioDump
- 描述: 该数据集包含189个Android恶意软件样本,根据其主要行为进行分类,收集于2011年10月26日。
- 主页: http://cgi.cs.indiana.edu/~nhusted/dokuwiki/doku.php?id=datasets
5. AndroMalShare
- 描述: AndroMalShare是一个专注于分享Android恶意软件样本的项目,提供样本的统计信息和详细报告。
- 主页: http://sanddroid.xjtu.edu.cn:8080/#home
6. Kharon Malware Dataset
- 描述: Kharon数据集是一个完全逆向和文档化的恶意软件集合,用于评估研究实验。
- 出版物: Kharon dataset: Android malware under a microscope. CIDRE, EPI. Learning from Authoritative Security Experiment Results (2016): 1.
- 主页: http://kharon.gforge.inria.fr/dataset/
7. AMD Project
- 描述: AMD包含24,553个样本,分为135种类型,涵盖71个恶意软件家族,时间跨度为2010年至2016年。
- 出版物: Android malware clustering through malicious payload mining. Li Y, Jang J, Hu X, et al. International Symposium on Research in Attacks, Intrusions, and Defenses. Springer, Cham, 2017: 192-214.
- 主页: http://amd.arguslab.org
8. AAGM Dataset
- 描述: AAGM数据集通过在真实智能手机上安装Android应用程序半自动化生成,包含1900个应用程序。
- 出版物: Towards a Network-Based Framework for Android Malware Detection and Characterization. Arash Habibi Lashkari, Andi Fitriah A.Kadir, Hugo Gonzalez, Kenneth Fon Mbah and Ali A. Ghorbani. PST, 2017.
- 主页: http://www.unb.ca/cic/datasets/android-adware.html
9. Android PRAGuard Dataset
- 描述: 该数据集包含10479个样本,通过七种不同的混淆技术混淆MalGenome和Contagio Minidump数据集得到。
- 出版物: Stealth attacks: an extended insight into the obfuscation effects on Android malware. Davide Maiorca, Davide Ariu, Igino Corona, Marco Aresu and Giorgio Giacinto. Computers and Security, 2015.
- 主页: http://pralab.diee.unica.it/en/AndroidPRAGuardDataset
10. AndroZoo
- 描述: AndroZoo是一个包含5,781,781个不同APK的集合,每个APK都由多个反病毒产品分析以确定其是否为恶意软件。
- 出版物: AndroZoo: Collecting Millions of Android Apps for the Research Community. K. Allix, T. F. Bissyandé, J. Klein, and Y. Le Traon. Mining Software Repositories (MSR) 2016.
- 主页: https://androzoo.uni.lu/

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录