DeepURLBench

arXiv2024-12-31 更新2025-01-06 收录

下载链接：

https://github.com/deepinstinct-algo/DeepURLBench

下载链接

链接失效反馈

官方服务：

资源简介：

DeepURLBench是由Deep Instinct和本古里安大学联合创建的一个多类恶意URL分类数据集，旨在提升网络安全领域的URL分类模型性能。该数据集包含超过2200万条URL，分为良性、钓鱼和恶意三类，数据来源于2020年至2023年间的公开拒绝列表和允许列表，并通过VirusTotal进行标签标注。数据集经过严格的清洗和结构化处理，确保了数据的多样性和时效性。该数据集的应用领域主要集中在网络安全，旨在通过深度学习和传统机器学习方法提升恶意URL的实时分类能力，解决现有模型在实时性和准确性上的不足。

DeepURLBench is a multi-class malicious URL classification dataset jointly created by Deep Instinct and Ben-Gurion University, aiming to improve the performance of URL classification models in the field of cybersecurity. This dataset contains over 22 million URL entries, categorized into three classes: benign, phishing, and malicious. The data is sourced from public allowlists and blocklists spanning the period from 2020 to 2023, with labels annotated via VirusTotal. The dataset has undergone rigorous cleaning and structuring processes to ensure its diversity and timeliness. Its primary application scenarios focus on cybersecurity, aiming to enhance real-time classification capabilities for malicious URLs through deep learning and traditional machine learning methods, and address the shortcomings of existing models in terms of real-time performance and accuracy.

提供机构：

Deep Instinct 和本古里安大学

创建时间：

2024-12-31

搜集汇总

数据集介绍

构建方式

DeepURLBench数据集的构建基于2020年至2023年间公开的拒绝列表和允许列表，结合了VirusTotal的扫描结果进行标签分类。数据经过严格的清洗和结构化处理，确保每个URL的分类准确性和一致性。数据集通过多源数据整合，确保了数据的多样性和广泛性，同时通过时间戳分离训练集和测试集，以评估模型在时间上的泛化能力。

特点

DeepURLBench数据集的特点在于其多类别分类能力，能够区分良性、钓鱼和恶意URL。数据集不仅包含URL的文本特征，还整合了DNS响应数据，如IP地址、ASN、国家和ISP信息，提供了更全面的上下文信息。此外，数据集通过时间分割测试集，能够有效评估模型在动态网络安全环境中的性能退化情况。

使用方法

DeepURLBench数据集的使用方法包括训练和评估恶意URL分类模型。用户可以通过加载数据集，利用其多类别标签和丰富的上下文特征进行模型训练。测试集的时间分割设计允许用户评估模型在不同时间段的表现，从而分析模型的鲁棒性和适应性。此外，数据集还可用于研究如何结合文本特征和DNS数据来提升分类性能，尤其是在实时分类场景中的应用。

背景与挑战

背景概述

DeepURLBench数据集由Deep Instinct和本古里安大学的研究团队于2024年推出，旨在解决恶意URL分类领域的关键问题。随着互联网的普及，恶意URL已成为网络安全的主要威胁之一，传统的分类方法在应对快速演变的网络攻击时显得力不从心。DeepURLBench通过引入多类别分类（良性、钓鱼和恶意URL）和结合DNS特征，提供了一个更为全面和精确的数据集。该数据集的构建基于2020年至2023年间的公开数据，并通过VirusTotal等权威平台进行标签验证，确保了数据的可靠性和时效性。DeepURLBench的推出不仅填补了现有数据集的空白，还为深度学习模型在恶意URL分类中的应用提供了新的研究平台。

当前挑战

DeepURLBench面临的挑战主要体现在两个方面。首先，恶意URL分类本身具有高度动态性，网络攻击手段不断演变，导致数据分布随时间发生显著变化。这种数据漂移现象使得模型的泛化能力受到限制，尤其是在面对新型攻击时表现不佳。其次，数据集的构建过程中，研究人员需要克服数据冗余、标签不一致以及DNS查询结果的多变性等问题。尽管通过严格的预处理和标签验证流程，确保了数据的高质量，但如何进一步提升模型的实时性能和长期稳定性，仍然是未来研究的重要方向。此外，如何在保证模型高效性的同时，避免对特定地理区域或网络服务提供商的偏见，也是需要持续关注的问题。

常用场景

经典使用场景

DeepURLBench数据集在恶意URL分类领域具有广泛的应用，尤其是在网络安全防护系统中。该数据集通过多类别分类（良性、钓鱼和恶意URL）的方式，为深度学习模型提供了丰富的训练和测试数据。其经典使用场景包括实时URL分类系统的开发与评估，帮助研究人员和工程师构建高效的恶意URL检测模型，以应对日益复杂的网络威胁。

衍生相关工作

DeepURLBench的发布推动了多项相关研究的发展，尤其是在结合文本特征和DNS数据的恶意URL分类方法上。例如，基于该数据集的URLNet+模型通过引入DNS特征和全局词汇特征，显著提升了分类性能。此外，该数据集还启发了对Transformer架构在恶意URL检测中的应用研究，如URLTran模型，进一步推动了该领域的技术进步。

数据集最近研究