基于去噪扩散隐式模型(DDIM)增强算法的恶意软件疫苗库
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6974ec9f195d264c7416d554&type=1
下载链接
链接失效反馈官方服务:
资源简介:
随着移动智能终端的广泛普及,Android平台成为全球最大的移动操作系统,带来了丰富的应用生态,也引发了日益严重的网络安全威胁,尤其是恶意软件的快速蔓延。高质量、结构化的恶意软件数据集对于数据科学和网络安全领域具有重要意义,能够为特征提取、模型训练、算法评估等环节提供坚实的数据基础,推动智能检测与防护技术的发展[1][2]。
在现有研究中,CICMalDroid2020数据集由加拿大网络安全研究所(CIC)与加拿大互联网注册局(CIRA)联合发布,作为当前Android平台较为全面的恶意软件数据集,广泛应用于学术研究、恶意软件检测、分类建模及性能评估等场景[3][4]。该数据集覆盖广告软件、银行恶意软件、短信恶意软件、风险软件和良性应用等典型类别,具备良好的代表性和科学性。然而,随着检测算法的不断发展,传统数据集在样本规模、类别均衡和多模态表达等方面的局限性逐渐显现,推动了数据增强和多维特征表达技术的研究。
本研究基于CICMalDroid2020原始数据,通过系统的数据清洗、特征缩放、流形降维、概率扩散合成和GAF图像化等多阶段处理,构建了结构丰富、样本多样、适用于深度学习的Android恶意软件图像数据集。该数据集不仅能够支持新一代智能检测算法的开发,也具备高度的重用价值,适用于模型训练、算法评测、特征可视化等多种数据科学应用场景,为学术界和工业界提供了重要的基础资源。数据集共包括6个核心数据文件,其中:(1) new_data290.csv是清洗后的CICMalDroid2020数据,数据量7.16MB;(2) processed_sqrt_8000.csv
是特征缩放后的数据,数据量13.4MB;(3) UMAP_malware_data128.csv是特征降维后的数据,也是模型训练数据,数据量13.4MB;(4) image_DDIM是扩充后的数据经过GAF转换后得到的图像文件夹, 数据量504MB;(5)DDIM.py是核心算法脚本,数据量8.02KB;(6) requirements.txt 是环境依赖清单,数据量 0.1MB。
提供机构:
鹏城实验室
搜集汇总
数据集介绍

背景与挑战
背景概述
本数据集基于CICMalDroid2020原始数据,采用去噪扩散隐式模型(DDIM)增强算法和格拉姆角场(GAF)图像化等技术进行处理,构建了一个结构丰富、适用于深度学习的Android恶意软件图像数据集。它旨在为智能检测算法的开发、模型训练和算法评估提供高质量的基础数据资源。
以上内容由遇见数据集搜集并总结生成



