five

CICMalDroid|恶意软件检测数据集|安卓系统安全数据集

收藏
huggingface2024-12-19 更新2024-12-20 收录
恶意软件检测
安卓系统安全
下载链接:
https://huggingface.co/datasets/builetrongduc/CICMalDroid
下载链接
链接失效反馈
资源简介:
这是一个单语种(英语)数据集,包含用户生成的标注。数据集大小在10,000到100,000个样本之间。数据集包含图像和分类标签(0到4),分为训练集(13103个样本)和测试集(3276个样本)。数据集的许可证为MIT,源数据集为原始数据。
创建时间:
2024-12-19
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CICMalDroid
  • 语言: 英语 (en)
  • 许可证: MIT
  • 多语言性: 单语言 (monolingual)
  • 数据集大小: 10K < n < 100K
  • 数据来源: 原始数据 (original)

数据集配置

  • 配置名称: custom_dataset

特征

  • 图像:
    • 数据类型: image
  • 标签:
    • 数据类型: class_label
    • 类别名称:
      • 0: 0
      • 1: 1
      • 2: 2
      • 3: 3
      • 4: 4

数据分割

  • 训练集:
    • 样本数量: 13103
  • 测试集:
    • 样本数量: 3276

数据文件

  • 配置: custom_dataset
    • 训练集路径: custom_dataset/train*
    • 测试集路径: custom_dataset/test*
    • 默认配置: 是
AI搜集汇总
数据集介绍
main_image_url
构建方式
CICMalDroid数据集的构建基于用户生成的标注,涵盖了从原始数据中提取的图像和标签信息。该数据集通过精心设计的流程,将图像与对应的标签进行配对,确保了数据的准确性和一致性。训练集和测试集分别包含13103和3276个样本,为模型训练和评估提供了充足的数据支持。
特点
CICMalDroid数据集的显著特点在于其单语种特性,仅包含英文数据,且数据规模适中,介于10K到100K之间。此外,数据集的标签设计简洁明了,采用0到4的分类标签,便于模型快速学习和识别。图像与标签的紧密结合,使得该数据集在图像分类任务中表现出色。
使用方法
使用CICMalDroid数据集时,用户可以通过加载预定义的训练和测试数据文件进行模型训练和评估。数据集的结构化设计使得数据加载和处理变得简单高效,支持多种机器学习框架。用户可以根据需要调整数据集的配置,以适应不同的模型训练需求。
背景与挑战
背景概述
CICMalDroid数据集由用户生成,专注于移动设备上的恶意软件检测。该数据集的核心研究问题是如何有效识别和分类安卓应用程序中的恶意行为,这对于保障移动设备的安全性具有重要意义。主要研究人员或机构通过分析应用程序的行为特征,构建了一个包含超过13,000个训练样本和3,276个测试样本的数据集,旨在为移动安全领域的研究提供丰富的数据支持。
当前挑战
CICMalDroid数据集面临的挑战主要集中在两个方面:一是如何准确捕捉和描述安卓应用程序中的恶意行为特征,这需要深入理解复杂的应用程序行为模式;二是数据集的构建过程中,如何确保样本的多样性和代表性,以避免模型训练中的偏差。此外,随着恶意软件技术的不断演变,数据集的更新和维护也是一个持续的挑战,以确保其对新型威胁的有效性。
常用场景
经典使用场景
CICMalDroid数据集在移动应用安全领域中被广泛用于恶意软件检测。通过分析移动应用的行为特征,该数据集为研究人员提供了一个标准化的基准,用于训练和评估恶意软件检测模型。其经典使用场景包括构建基于机器学习的分类器,以区分恶意应用与正常应用,从而提升移动设备的安全性。
解决学术问题
CICMalDroid数据集解决了移动应用安全领域中恶意软件检测的学术难题。通过提供丰富的行为特征和标注数据,该数据集使得研究人员能够深入探索恶意软件的复杂行为模式,并开发出更为精确和高效的检测算法。这不仅推动了移动安全技术的发展,还为学术界提供了重要的研究资源。
衍生相关工作
CICMalDroid数据集的发布激发了大量相关研究工作。许多学者基于该数据集开发了新的恶意软件检测算法,并提出了多种改进的机器学习模型。此外,该数据集还被用于验证跨平台恶意软件检测技术的有效性,推动了移动安全领域的技术进步。这些衍生工作不仅丰富了学术研究,还为实际应用提供了有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录