JPxxx/url-benchmark-dataset
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/JPxxx/url-benchmark-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这个300万URL的基准数据集是在论文《从实验室到生产:真实数据中的恶意URL检测》(匿名提交)中引入的。它保持了9:1的良性到恶意URL比例,并使用站点感知的5折分割方法,确保没有站点标识符(二级域名或IP地址)出现在多个折中。数据集的设计使得模型能够更好地泛化到未见威胁,通过防止训练集和评估集之间的站点标识符重叠,模型无法依赖记忆站点特定模式,而必须学习跨站点通用的结构和语义特征。数据集适用于基于字符串的模型在多层次检测管道中的基准测试,但不适用于部署在单一分布流量上的生产模型训练。
This 3-million-URL benchmark dataset was introduced in the paper From Lab to Production: Malicious URL Detection on Real-World Data (anonymous submission). It maintains a 9:1 benign-to-malicious ratio and uses site-aware 5-fold splitting, ensuring no site-identifier (second-level domain or IP address) appears in more than one fold. The design enables robust evaluation of model generalization to unseen threats: by preventing overlap of site-identifiers between training and evaluation sets, models cannot rely on memorizing site-specific patterns and must instead learn structural and semantic features that generalize across sites. Suitable for benchmarking string-based models in multi-layer detection pipelines, but not intended for training production models deployed on single-distribution traffic.
提供机构:
JPxxx
搜集汇总
数据集介绍

构建方式
该数据集由论文《From Lab to Production: Malicious URL Detection on Real-World Data》提出,旨在弥合实验室环境与真实生产场景之间的差距。构建过程融合了多元数据来源:良性URL源自Common Crawl(2021及2025年快照)并辅以经清洗的公开数据集,而恶意URL则整合自PhishTank、URLHaus等权威威胁情报源及现有基准库。为确保评估的严谨性,数据集引入了站点感知(site-aware)的5折划分策略,确保同一二级域名或IP地址不会跨越不同折出现,从而迫使模型学习跨站点的结构与语义特征。整体规模为300万条URL,严格维持9:1的良性至恶意比例,且每折均保持相同的类别平衡与统计特性。
特点
该数据集的核心特点在于其实验室到生产环境的桥梁作用与站点感知设计。首先,数据分布模拟真实流量中的类别失衡,9:1的良性恶意比例贴近实际部署场景。其次,站点感知划分是最大亮点:避免训练与评估集间的站点标识符重叠,有效防止模型记忆特定站点模式,转而捕捉跨站点的泛化特征。此外,数据集在URL结构、长度及来源上均具备高度多样性,且各折间的统计特性一致,包括长度分布与类别平衡,为鲁棒性评估提供了坚实基础。恶意类别主要涵盖钓鱼与恶意软件投递URL,反映了公开来源的典型威胁类型。
使用方法
数据集通过HuggingFace Datasets库加载,使用`load_dataset("JPxxx/url-benchmark-dataset")`即可获取。数据以单一划分提供,包含`url`(原始URL字符串)、`label`('benign'或'malicious')、`fold`(0至4的折标识)三个字段。使用时,可依据`fold`字段灵活进行站点感知交叉验证,例如筛选除0折外的数据作为训练集,0折作为测试集。该数据集适用于字符串文本分类模型的基准测试,特别适合多层检测管道中的模型泛化能力评估。需注意,它不适用于直接训练面向单一流量分布的生产模型,后者应使用私有数据。
背景与挑战
背景概述
在网络安全领域,恶意URL检测是抵御网络钓鱼、恶意软件传播等威胁的关键防线。然而,现有数据集常因站点标识符泄露导致模型过拟合于特定站点模式,难以泛化至未知威胁。为弥合实验室研究与真实部署间的鸿沟,该数据集由匿名研究团队于2026年提出,核心研究问题聚焦于构建一个具备站点感知特性的基准测试集,以评估模型对未见威胁的泛化能力。该数据集包含300万条URL,维持9:1的良性与恶意比例,并采用站点感知五折划分,确保同一二级域名或IP地址仅出现在单一折中。其设计推动了恶意URL检测从学术验证向工业级应用的过渡,成为该领域标准化评估的重要基石。
当前挑战
该数据集面临的领域挑战在于恶意URL检测的泛化性难题:传统方法常依赖站点特定特征,当遭遇全新域名或IP时性能骤降。该数据集通过站点感知划分,迫使模型学习超越站点表象的结构化与语义化特征。构建过程中的挑战包括:从Common Crawl、PhishTank、URLHaus等多源异构数据中清洗整合,确保良性URL的时效性与恶意样本的多样性;维护跨折的统计一致性(如URL长度分布平衡);以及在不泄露站点标识的前提下,实现复杂的数据分层与折叠划分。这些挑战反映了真实场景中数据碎片化、标签噪声与分布偏移的复杂性,对数据集的实用性与可靠性提出了严苛要求。
常用场景
经典使用场景
在网络安全研究的壮阔版图中,恶意URL检测始终是抵御数字威胁的前沿阵地。该数据集专为文本分类任务设计,其经典使用场景在于构建和评估能够从原始URL字符串中自动区分恶意与良性链接的机器学习模型。凭借其规模达三百万条URL、保持9:1的良性与恶意比例,并引入站点感知的五折划分策略,该数据集确保同一站点的标识符不会出现在不同折叠中,从而迫使模型必须学习跨站点的结构与语义特征,而非简单记忆特定站点模式。这使得它成为验证模型在面对未见过的攻击时泛化能力的权威基准,尤其是在多层检测流水线中评估基于字符串的模型时,其价值尤为凸显。
解决学术问题
在学术界,恶意URL检测长期面临两大核心困境:一是数据集规模有限且类别分布极度失衡,二是模型易陷入对训练数据中特定站点模式的过拟合,导致在真实世界新威胁面前失效。该数据集以精心构造的3:7万恶意样本与270万良性样本的庞大容量,精准重现了真实互联网流量中约10%的恶意比例,有效破解了数据不平衡难题。更为关键的是,其站点感知的划分设计,彻底消除了训练集与评估集之间站点标识符的重叠,使得学术界首次能够严格评估模型对未知站点上恶意URL的泛化能力。这一创新不仅推动了基于结构特征和语义表示的学习方法的发展,还促使研究者重新审视传统特征工程与端到端深度学习方法的优劣,为构建更鲁棒、更实用的威胁检测系统奠定了坚实的实验基础。
衍生相关工作
该数据集的发布催生了多个颇具影响力的衍生研究方向。一方面,研究者基于其站点感知特性,深入探索了对比学习与元学习在恶意URL检测中的应用,旨在使模型仅通过少量新站点样本即可快速适应未知威胁,推动了少样本学习在网络安全领域的发展。另一方面,该数据集被广泛用作评估多种文本表示方法的竞技场,从传统的N-gram和TF-IDF特征,到基于BERT的预训练模型及其轻量化变体,相关工作系统地对比了不同编码方式在跨站点泛化上的表现差异。此外,该数据集还衍生出针对类别不平衡问题的创新性工作,例如生成对抗网络(GAN)驱动的恶意URL合成技术,以及成本敏感的学习策略研究,这些工作共同丰富了对真实世界恶意URL检测挑战的理解与应对手段。
以上内容由遇见数据集搜集并总结生成



