Mining Android Sandboxes Dataset

Name: Mining Android Sandboxes Dataset
Creator: 哥廷根大学
Published: 2025-05-14 23:52:09
License: 暂无描述

arXiv2025-05-14 更新2025-05-16 收录

下载链接：

https://github.com/droidxp/paper-ecoop-results

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出的数据集名为Mining Android Sandboxes Dataset，由哥廷根大学的研究团队创建，包含4076对原始和重新打包的Android应用程序。该数据集旨在评估Mining Android Sandboxes (MAS)方法在恶意软件分类方面的性能。MAS方法是一种动态分析方法，旨在通过分析应用程序调用敏感API的行为来构建沙盒环境，以检测恶意行为。数据集覆盖了更多样化的Android恶意软件家族，用于评估MAS方法在不同规模数据集上的表现，并揭示了其在特定恶意软件家族中的局限性。

提供机构：

哥廷根大学

创建时间：

2025-05-14

原始信息汇总

数据集概述

基本信息

数据集名称：Replication Package for "Scaling Up: Revisiting Mining Android Sandboxes at Scale for Malware Classification"
研究主题：评估Mining Android Sandbox (MAS)方法在恶意软件分类中的性能
数据集规模：4,076对原始与重打包应用（比先前研究大一个数量级）

数据来源

基础数据：
- 来自两个仓库的4,076对重打包应用：
  - RePack: https://github.com/serval-snt-uni-lu/RepackageRepo.git
  - AndroMalPack: https://github.com/hasnainrafique/AndroMalPack-Dataset
- 原始数据来自Androzoo仓库: https://androzoo.uni.lu/gp-metadata
对比数据：
- 先前研究的102对样本（单独提供）

数据文件

样本列表：
- 完整样本CSV: https://github.com/droidxp/paper-ecoop-results/blob/main/Samples.csv
- 原始研究样本CSV: https://github.com/droidxp/paper-ecoop-results/blob/main/originalSamples.csv
恶意软件分析结果：
- 重打包应用哈希列表: https://github.com/droidxp/paper-ecoop-results/blob/main/listRepackagedHash.csv
- AVClass分类结果: https://github.com/droidxp/paper-ecoop-results/blob/main/avClassResultRepackaged.csv
相似性分析：
- SimiDroid相似性分析结果: https://github.com/droidxp/paper-ecoop-results/blob/main/summarySimiDroid.csv
最终数据集：
- 合并后的部分数据集: https://github.com/droidxp/paper-ecoop-results/blob/main/sample_final_ds_before_VT_check.csv
- 最终大型数据集: https://github.com/droidxp/paper-ecoop-results/blob/main/large_ds.csv
- 原始小型数据集: https://github.com/droidxp/paper-ecoop-results/blob/main/small_ds.csv

数据处理工具

数据收集：DroidXP基础设施（基于Droidbot）
分析方法：
- AVClass2恶意软件家族分类工具
- SimiDroid应用相似性分析工具
处理脚本：
- Python下载脚本: https://github.com/droidxp/paper-ecoop-results/blob/main/getApps.py
- 数据处理R脚本: https://github.com/droidxp/paper-ecoop-results/blob/main/merge-datasets.Rmd
- 分析R脚本: https://github.com/droidxp/paper-ecoop-results/blob/main/analysis.Rmd

分析结果

完整分析结果HTML: https://github.com/droidxp/paper-ecoop-results/blob/main/analysis.html
包含116个恶意软件家族对MAS方法性能的影响分析

搜集汇总

数据集介绍

构建方式

Mining Android Sandboxes Dataset（MAS数据集）的构建过程分为三个阶段：首先，从RePack和AndroMalPack两个Android重打包应用仓库中收集原始和重打包应用对，初始数据集包含16,487对应用。随后，通过DroidFax工具对应用进行插桩，排除无法插桩或安装失败的样本，最终筛选出4,076对有效样本。为确保数据质量，利用VirusTotal验证原始应用的非恶意性，并采用SimiDroid工具量化应用对的代码相似度，最终形成覆盖116个恶意软件家族的多样化数据集。

使用方法

使用MAS数据集需遵循三阶段流程：首先通过DroidXP基础设施对APK文件插桩，记录静态信息；随后在Android模拟器（API 28）中运行DroidBot测试生成工具，每对应用执行三次以降低随机性，每次运行3分钟以覆盖敏感API调用；最后通过DroidFax收集运行时数据（如敏感API调用集S1/S2），计算差异集S=S2\S1。若|S|>0则判定重打包应用为恶意，结果需与VirusTotal标注比对以计算精确率、召回率等指标。数据集特别适用于评估动态分析技术在跨家族恶意软件检测中的泛化能力。

背景与挑战

背景概述

Mining Android Sandboxes Dataset（MAS数据集）由Francisco Handrick等研究人员于2025年提出，旨在通过动态分析技术解决Android恶意软件检测中的关键问题。该数据集包含4,076对原始与重打包应用，覆盖116种恶意软件家族，显著扩展了先前仅含102对样本的小规模数据集。MAS方法通过记录敏感API调用构建沙箱环境，以识别重打包应用中的恶意行为，其创新性在于将自动化测试生成工具（如DroidBot）与动态分析相结合。该数据集推动了Android安全领域对规模化恶意软件分类的研究，尤其揭示了传统方法在多样化恶意家族检测中的局限性。

当前挑战

MAS数据集面临双重挑战：1) 领域问题层面，传统沙箱挖掘方法对特定恶意家族（如gappusin和revmob）检测效果显著下降，F1-score从小数据集的0.89降至0.54，暴露出对动态代码加载和原生API调用的盲区；2) 构建过程中，数据采集需处理17.6%的样本失效问题（包括反检测崩溃、安装兼容性等），且依赖VirusTotal的多引擎验证机制可能引入标注偏差。此外，重打包应用的高相似性（平均90.39%）增加了恶意行为与合法代码的区分难度，凸显了需结合网络流量监控等补充技术的必要性。

常用场景

经典使用场景

Mining Android Sandboxes Dataset（MAS数据集）在Android恶意软件检测领域具有重要应用价值，其经典使用场景是通过动态分析技术（如DroidBot等测试生成工具）构建沙箱环境，记录应用程序对敏感API的调用行为。该数据集特别关注重打包应用（repackaged apps）的恶意行为识别，通过对比原始应用与重打包版本的API调用差异，识别潜在的恶意代码注入行为。数据集包含4,076对应用样本，覆盖了116种恶意软件家族，为研究大规模Android恶意软件分类提供了重要基准。

解决学术问题

MAS数据集解决了Android安全研究中的关键问题：一是验证了传统沙箱挖掘方法（如MAS方法）在大规模数据集上的泛化能力，揭示了其在gappusin等特定恶意家族上的检测盲区（F1-score从0.89降至0.54）；二是通过动态分析与静态特征（如SimiDroid相似性评分）的结合，量化了应用相似度与恶意行为检测准确性的关联性（Spearman相关性验证）；三是为对抗性样本研究（如JNI恶意调用、反射代码注入）提供了实证基础，推动了混合检测技术的发展。

实际应用

在实际应用中，该数据集被广泛用于优化企业级移动安全解决方案。例如：1) 安全厂商通过分析数据集中高频调用的敏感API（如TelephonyManager.getNetworkOperatorName），增强对隐私窃取类恶意软件的规则引擎；2) 应用商店利用其标注的恶意家族特征（如gappusin广告软件行为模式）改进自动化审核流程；3) 研究机构基于大规模样本验证新型检测技术（如网络流量监控与原生代码分析结合）的有效性，弥补传统沙箱在动态代码加载检测上的不足。

数据集最近研究