DetectBERT Benchmark Dataset

Name: DetectBERT Benchmark Dataset
Creator: 南佛罗里达大学
Published: 2025-02-21 04:56:05
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.15041v1

下载链接

链接失效反馈

官方服务：

资源简介：

DetectBERT Benchmark Dataset 是一个大规模的数据集，用于安卓恶意软件检测研究。该数据集来源于 DexRay 研究，包含 96,994 个良性应用和 61,809 个恶意应用。数据集的标注基于 VirusTotal 报告：未被任何防病毒引擎标记的应用被认为是良性的，而被两个以上防病毒引擎标记为恶意的是恶意应用。该数据集使得研究人员可以使用相同的数据集、数据划分和评估指标来训练和测试各种模型，确保公平比较。

The DetectBERT Benchmark Dataset is a large-scale dataset dedicated to Android malware detection research. Derived from the DexRay study, this dataset includes 96,994 benign applications and 61,809 malicious applications. The dataset is annotated based on VirusTotal reports: applications that are not flagged by any antivirus engine are considered benign, while those marked as malicious by more than two antivirus engines are classified as malicious. This dataset enables researchers to train and test various models using the same dataset, consistent data splits, and standard evaluation metrics, thereby ensuring fair comparative assessments.

提供机构：

南佛罗里达大学

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

DetectBERT Benchmark Dataset是由Sun等人创建的一个大规模数据集，用于评估Android恶意软件检测模型。该数据集来源于DexRay研究，包含96,994个良性应用和61,809个恶意应用。标签过程基于VirusTotal报告：未标记为任何防病毒引擎的应用被视为良性，而检测到恶意超过两个防病毒引擎的应用被标记为恶意。

使用方法

使用DetectBERT Benchmark Dataset时，研究人员可以将其用于训练和测试各种Android恶意软件检测模型。数据集的标签和特征已经预先处理，可以直接用于模型训练。此外，数据集的构建方式也考虑了数据的真实性和代表性，确保了模型的评估更加可靠。

背景与挑战

背景概述

随着移动设备在现代社会中的普及，Android恶意软件的检测成为了网络安全领域中的一个重要课题。DetectBERT Benchmark Dataset是由Guojun Liu等人创建的，旨在提供一个全面的基准数据集，用于评估Android恶意软件检测模型。该数据集的创建时间为2025年，主要研究人员来自南佛罗里达大学和堪萨斯州立大学。该数据集的核心研究问题是比较传统机器学习模型和深度学习模型在Android恶意软件检测中的性能。DetectBERT Benchmark Dataset对相关领域的影响力在于，它为Android恶意软件检测研究提供了一个公平的比较平台，使得研究人员能够更准确地评估不同模型的检测能力。

当前挑战

DetectBERT Benchmark Dataset面临的挑战包括：1)确保数据集的多样性，以便能够全面评估不同模型在不同情况下的表现；2)处理数据集的规模，确保模型训练和测试的效率；3)解决数据集的标签问题，确保标签的准确性和一致性。

常用场景

经典使用场景

DetectBERT Benchmark Dataset是一个用于Android恶意软件检测的数据集，它被广泛应用于评估和比较传统机器学习（ML）模型和深度学习（DL）模型在Android恶意软件检测任务中的性能。该数据集包含了大量的良性应用程序和恶意应用程序，可用于训练和测试恶意软件检测模型。通过对不同模型在该数据集上的性能进行评估，研究者可以更好地理解各种模型的优缺点，并选择最合适的模型用于实际的恶意软件检测任务。

解决学术问题

DetectBERT Benchmark Dataset解决了Android恶意软件检测领域的一个关键问题，即缺乏一个全面的基准测试来评估不同模型的性能。在过去的Android恶意软件检测研究中，深度学习模型往往被宣传为具有优越性能，但这些模型通常只与有限的传统机器学习模型进行比较，缺乏在多样化数据集上的全面基准测试。DetectBERT Benchmark Dataset提供了一个全面的数据集，使得研究者可以对不同模型进行公平的比较，从而更好地理解各种模型的性能。此外，该数据集还解决了Android恶意软件检测领域的一个挑战，即数据集的选择和构建。现有的数据集往往存在采样偏差，导致模型性能评估不准确。DetectBERT Benchmark Dataset通过从单一市场收集数据，并采用滑动窗口的方法进行数据分割，从而确保了数据集的可靠性和代表性。

实际应用

DetectBERT Benchmark Dataset在实际应用中具有广泛的应用场景。它可以用于开发Android恶意软件检测系统，帮助用户识别和防御恶意软件。通过对该数据集上的模型进行训练和测试，研究者可以开发出高性能的恶意软件检测模型，并将其部署在实际的应用程序商店中，从而提高应用程序的安全性。此外，DetectBERT Benchmark Dataset还可以用于评估和比较现有的恶意软件检测系统，帮助用户选择最合适的系统进行防御。

数据集最近研究