Android Permission Dataset

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/Saket-Upadhyay/Android-Permission-Extraction-and-Dataset-Creation-with-Python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由安卓应用的权限信息组成，用于训练机器学习模型以检测恶意软件。数据集通过提取恶意软件和良性应用的权限信息，并将其存储在CSV文件中，以便于机器学习算法的输入。

This dataset comprises permission information from Android applications, designed for training machine learning models to detect malware. The dataset is constructed by extracting permission details from both malicious and benign applications, which are then stored in CSV files to facilitate input for machine learning algorithms.

创建时间：

2019-09-11

原始信息汇总

数据集概述

数据集名称

Android Permission Extraction and Dataset Creation with Python

数据集描述

该数据集通过Python脚本从恶意软件和良性应用中提取权限信息，并创建一个逗号分隔值(.csv)文件，用于存储这些信息，以便输入机器学习算法进行训练。

数据集内容

文件格式：.csv
数据结构：
- NAME：应用名称
- 权限列：应用使用的各种权限，如android.permission.ACCESS_NETWORK_STATE等
- CLASS：应用类别（0=良性，1=恶意）

数据集使用方法

数据生成：将恶意软件和良性应用复制到指定文件夹，运行python3 ExtractorAIO.py脚本生成数据。
数据解析：使用如pandas等Python模块解析.csv文件。

数据集示例

样本数量：6个应用（3个恶意软件和3个良性应用）
权限信息：每个应用的权限使用情况，标记为0（未使用）或1（使用中）。

数据集引用

引用文献：PACE: Platform for Android Malware Classification and Performance Evaluation, 2019 IEEE International Conference on Big Data (Big Data)
引用格式：@INPROCEEDINGS{9006557, author={A. {Kumar} and V. {Agarwal} and S. K. {Shandilya} and A. {Shalaginov} and S. {Upadhyay} and B. {Yadav}}, booktitle={2019 IEEE International Conference on Big Data (Big Data)}, title={PACE: Platform for Android Malware Classification and Performance Evaluation}, year={2019}, pages={4280-4288}}

搜集汇总

数据集介绍

构建方式

Android Permission Dataset的构建过程主要依赖于Python脚本对恶意软件和良性应用的权限信息进行提取。用户需将待分析的APK文件分别放置在恶意软件和良性应用的文件夹中，随后运行脚本`ExtractorAIO.py`。该脚本通过解析APK文件，提取其权限信息，并将其存储为CSV格式的文件。这一过程在Linux环境下表现最佳，但也可通过适当修改代码在Windows环境下运行。

特点

该数据集以CSV格式存储，包含应用程序的名称、权限使用情况以及分类标签。权限信息以二进制形式表示，0表示未使用该权限，1表示使用。分类标签则用于区分应用程序的类别，0代表良性应用，1代表恶意软件。数据集的结构清晰，便于直接输入机器学习算法进行训练和测试。此外，数据集规模可根据需求扩展，适用于大规模数据分析。

使用方法

生成的数据集可通过Python的`pandas`库进行解析和处理。用户可以使用`pd.read_csv`方法读取CSV文件，并提取特征矩阵和标签向量。特征矩阵包含所有权限信息，标签向量则用于分类。随后，数据可进一步划分为训练集和测试集，供机器学习模型使用。例如，使用`sklearn`库中的`train_test_split`方法将数据划分为训练集和测试集，以便进行模型训练和性能评估。

背景与挑战

背景概述

Android Permission Dataset 是由研究人员 Ajit Kumar 及其团队在2019年创建的，旨在为Android恶意软件分类与性能评估提供数据支持。该数据集的核心研究问题是通过分析Android应用程序的权限信息，区分恶意软件与良性应用。数据集的应用场景广泛，尤其在Android生态系统的安全研究中具有重要影响力。其构建基于Python脚本，能够从APK文件中提取权限信息，并生成CSV格式的数据，便于机器学习算法的直接使用。该数据集在PACE项目中得到了应用，推动了Android恶意软件检测技术的可重复研究。

当前挑战

Android Permission Dataset 在解决Android恶意软件检测问题时面临多重挑战。首先，恶意软件与良性应用之间的权限使用模式往往存在重叠，导致分类模型的准确性难以提升。其次，Android权限系统的复杂性使得权限特征的提取与选择成为一大难题，如何有效筛选出具有区分度的权限特征仍需深入研究。在数据集的构建过程中，跨平台兼容性问题尤为突出，脚本在Linux环境下运行良好，但在Windows环境中需要大量调整，增加了使用门槛。此外，随着Android系统的不断更新，权限机制的变化也要求数据集持续更新，以保持其时效性和实用性。

常用场景

经典使用场景

在移动安全领域，Android Permission Dataset 被广泛用于机器学习模型的训练与验证。通过提取恶意软件和良性应用的权限信息，该数据集为研究人员提供了一个标准化的数据源，用于构建和测试分类模型。其经典使用场景包括在恶意软件检测系统中，通过分析应用的权限请求模式，识别潜在的恶意行为。

解决学术问题

该数据集有效解决了Android恶意软件检测中的关键问题，即如何通过权限信息区分恶意应用与良性应用。传统方法依赖于人工分析，效率低下且难以应对大规模数据。通过提供结构化的权限数据，该数据集使得基于机器学习的自动化检测成为可能，显著提升了检测的准确性和效率。

衍生相关工作

该数据集衍生了一系列经典研究工作，例如Kumar等人提出的PACE平台，该平台集成了多种基于机器学习的Android恶意软件检测技术，并提供了可复现的研究框架。此外，FAMOUS项目也利用该数据集进行移动设备取证分析，通过权限评分系统识别潜在的安全威胁。这些工作进一步推动了移动安全领域的研究与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集