DeepURLBench

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/DeepInstinct/DeepURLBench

下载链接

链接失效反馈

官方服务：

资源简介：

DeepURLBench是一个大规模的现实世界URL分类基准数据集，由Deep Instinct研究团队开发。数据集包括两个子集：包含额外DNS解析数据的`urls_with_dns`和只包含核心元数据的`urls_without_dns`。数据集用于文本分类任务，包括URL、首次观察时间戳、TTL、分类标签（恶意软件、钓鱼或良性）和解析的IP地址等信息。该数据集没有预定义的训练/验证/测试分割，建议按`first_seen`字段进行时间顺序分割。

DeepURLBench is a large-scale real-world URL classification benchmark dataset developed by the Deep Instinct research team. The dataset comprises two subsets: `urls_with_dns` which contains additional DNS resolution data, and `urls_without_dns` which only includes core metadata. It is designed for text classification tasks, and contains information such as URLs, first observed timestamps, TTL, classification labels (malware, phishing, or benign), and resolved IP addresses. No pre-defined training/validation/test splits are provided for this dataset, and a chronological split based on the `first_seen` field is recommended.

创建时间：

2025-05-11

原始信息汇总

DeepURLBench 数据集概述

基本信息

许可证: CC BY-NC 4.0
任务类别: 文本分类
语言: 英语
标签: 网络安全
数据集名称: DeepURLBench
规模: 10M < n < 100M

数据集内容

数据集包含两个子集，均为Parquet格式：

🟢 `urls_with_dns`

包含DNS解析数据：

url: 被分析的URL
first_seen: URL首次被观察到的时间戳
TTL: DNS TTL值
label: 分类标签（malware、phishing或benign）
ip_address: 解析出的IP地址列表

🔵 `urls_without_dns`

仅包含核心元数据：

url: 被分析的URL
first_seen: URL首次被观察到的时间戳
label: 分类标签（malware、phishing或benign）

数据分割说明

数据集未提供预定义的分割（如训练/验证/测试集）
推荐按first_seen字段按时间顺序分割，以模拟真实场景中对新URL的分类评估

加载方式

使用Hugging Face datasets库加载：

python from datasets import load_dataset

ds_with_dns = load_dataset( "DeepInstinct/DeepURLBench", data_files="urls_with_dns.parquet" )

ds_without_dns = load_dataset( "DeepInstinct/DeepURLBench", data_files="urls_without_dns.parquet" )

引用

bibtex @misc{deepurlbench2025, author = {Deep Instinct Research Team}, title = {DeepURLBench: A large-scale benchmark for URL classification}, year = {2025}, howpublished = {Available at: https://huggingface.co/datasets/DeepInstinct/DeepURLBench} }

搜集汇总

数据集介绍

构建方式

DeepURLBench数据集由Deep Instinct研究团队精心构建，专注于真实世界URL分类任务。该数据集包含两个独立子集，分别以Parquet格式存储：`urls_with_dns`子集不仅包含URL基础信息，还整合了DNS解析数据如TTL值和IP地址列表；`urls_without_dns`子集则仅保留URL、首次观测时间戳和分类标签的核心元数据。数据采集过程强调时间维度，通过`first_seen`字段记录每个URL的首次出现时间，为时序分析提供基础。

特点

作为网络安全领域的大规模基准数据集，DeepURLBench最显著的特点是其实战导向的设计理念。数据集涵盖恶意软件、钓鱼网站和良性URL三类标签，总量介于1000万至1亿条之间，具有显著的规模优势。特别值得注意的是，数据集采用动态时间划分策略而非静态分割，通过`first_seen`字段实现按时间推移的评估模式，这种设计能更真实地模拟网络安全防护系统的实际部署场景。两个子集的并行设计既满足基础分类需求，又为深度网络分析提供了DNS层级的扩展维度。

使用方法

该数据集通过Hugging Face平台提供便捷的访问方式，用户可使用`datasets`库分别加载两个子集。加载时需注意数据集未预设传统的训练集/验证集/测试集划分，研究者应参照原论文建议按`first_seen`字段进行时序分割，即将较早出现的URL用于训练，较新的用于评估。这种使用方法能有效检验模型对未知威胁的泛化能力。数据集支持CC BY-NC 4.0许可协议，适用于非商业的网络安全研究场景。

背景与挑战

背景概述

DeepURLBench是由Deep Instinct研究团队于2025年推出的网络安全领域大规模基准数据集，专注于真实世界URL分类任务。该数据集通过整合恶意软件、钓鱼网站和良性URL的多维度特征，为网络安全研究提供了重要的基准测试平台。数据集采用时间序列标注和DNS解析数据相结合的方式，充分体现了网络威胁动态演化的特性，对提升恶意URL检测模型的泛化能力和时效性具有重要价值。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，URL分类需解决恶意行为模式快速演化带来的概念漂移问题，以及钓鱼网站刻意模仿合法URL的对抗性特征；在构建过程中，研究人员需处理海量网络流量数据的去噪与标注，确保时间序列划分的合理性以模拟真实检测场景，同时平衡DNS解析数据获取的完整性与隐私保护之间的冲突。

常用场景

经典使用场景

在网络安全领域，DeepURLBench数据集为URL分类任务提供了标准化评估基准。该数据集通过包含恶意软件、钓鱼网站和良性URL的三分类标签，成为训练和验证URL检测模型的首选资源。研究者可利用其带有DNS解析数据的子集，深入分析网络特征与恶意行为之间的关联性。

衍生相关工作

该数据集催生了多项创新研究，包括基于时序特征的动态URL检测框架、融合DNS解析的图神经网络方法等。部分研究团队进一步扩展了其应用边界，开发出结合自然语言处理技术的URL语义分析模型，推动了跨模态威胁检测的发展。

数据集最近研究