JPxxx/url-pretraining-dataset
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/JPxxx/url-pretraining-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个大规模无标签的URL预训练语料库,包含约6800万个从Common Crawl月度快照(2020-2025年)中采样的公共URL。数据集主要用于URL聚焦模型的掩码语言建模(MLM)或其他自监督预训练目标,适合初始化模型以进行下游URL分类任务(如恶意URL检测)。数据集包含URL字符串和采样年份两列,经过过滤仅包含HTTP 200响应的URL,去重并限制每个站点标识符的URL数量以减少流行站点的偏差。数据集来源于Common Crawl月度抓取的随机采样分片,具有时间和结构多样性。
This is a large-scale unlabeled corpus of ~68 million public URLs sampled from Common Crawl monthly snapshots (2020–2025). It was created for, and used in, the paper "From Lab to Production: Malicious URL Detection on Real-World Data" to pre-train transformer-based models on URL-specific structural and language patterns. The corpus provides temporal and structural diversity, covering a wide range of domains, path/query structures, and IP-based URLs. It is ideal for initializing models that will be fine-tuned on downstream URL classification tasks (e.g., malicious URL detection).
提供机构:
JPxxx
搜集汇总
数据集介绍

构建方式
该数据集源自Common Crawl在2020至2025年间发布的月度网络快照,通过随机采样碎片并筛选出返回HTTP 200状态码的有效URL构建而成。为确保数据质量与结构多样性,研究团队对收集到的URL进行了去重处理,并针对每个站点标识(二级域名或IP地址)设定了不超过150条URL的上限,以缓解热门站点对整体分布的偏倚效应。最终汇聚为约6800万条无标签的URL样本,每一条均以原始字符串形式保留其完整结构,并附有对应的快照年份信息。
特点
本数据集的核心特质在于其规模宏大与时空维度上的丰富多样性。涵盖六年间跨越不同年份的URL数据,使得模型能够捕捉网络链接在时间维度上的演变趋势。在结构层面,数据集中既包含简洁的着陆页URL,也涵盖深层路径、复杂查询参数乃至基于IP地址的多种格式,为学习URL的结构化与语义模式提供了充足的素材。作为纯粹的无监督预训练语料,数据集不携带任何标签,旨在服务于掩码语言建模等自监督学习任务。
使用方法
该数据集专为基于Transformer架构的URL模型预训练而设计,用户可通过HuggingFace的datasets库便捷加载。推荐采用流式加载模式以高效迭代全部样本,避免一次性占用大量内存资源。典型的应用路径是先利用本数据集对模型进行领域自适应预训练,使其充分学习URL特有的结构与语言规律,再将其迁移至下游的恶意URL检测等分类任务中进行微调。数据集仅包含单一的训练分割,符合无监督学习的惯常设定。
背景与挑战
背景概述
在网络安全领域,恶意URL检测是抵御网络钓鱼、恶意软件传播等威胁的关键防线。然而,传统监督学习方法受限于标注数据的稀缺性和新兴攻击模式的快速演变。为此,研究者提出通过无监督预训练捕获URL的结构与语言规律,以提升模型在真实场景中的泛化能力。url-pretraining-dataset数据集由匿名研究团队于2026年创建,源自2020至2025年间Common Crawl的月度快照,包含约6800万条公开URL。该数据集专为论文“From Lab to Production: Malicious URL Detection on Real-World Data”设计,旨在为Transformer模型提供大规模的领域适应性预训练资源。其时间跨度覆盖六年,结构上汇聚了短着陆页、深层路径、复杂查询及IP格式URL,显著丰富了URL表征学习的多样性和代表性。这一资源的推出为恶意URL检测领域注入了宝贵的无标注预训练语料,推动了从实验室研究向工业级应用的跨越。
当前挑战
该数据集所应对的核心领域挑战在于恶意URL检测中的标注成本高昂与攻击模式动态演化。传统监督模型依赖大量精准标记的钓鱼或恶意样本,而在真实网络中,新威胁层出不穷,历史标签难以覆盖未来的攻击变种。数据集构建过程中面临多重技术挑战:首先,从海量Common Crawl数据中筛选出约6800万条具有实际可访问性的URL,需确保HTTP 200响应并执行去重,处理规模达数十亿级数据流;其次,为了缓解对热门网站的偏好,每站点(二级域名或IP)限制最多150条URL,这要求在数据量庞大的同时维持站点间的平衡性;此外,需在跨年度快照中保持取样的一致性,以兼顾时间维度上的结构变异,从而有效减少后续预训练中可能出现的偏差。
常用场景
经典使用场景
该数据集的核心应用场景在于为基于Transformer架构的恶意URL检测模型提供大规模无监督预训练语料。通过捕捉URL字符串中蕴含的语义与结构规律,研究人员可利用其开展掩码语言建模(MLM)等自监督学习任务,从而使模型在未见过的URL样本上获得更强的泛化能力。这一预训练过程是后续进行下游分类任务微调的关键基础。
解决学术问题
该数据集有效回应了网络安全领域中“标注样本稀缺”和“模型域适应困难”两大经典问题。传统恶意URL检测方法高度依赖人工标注,而该68万规模的无标签语料来自真实互联网,涵盖了丰富的域、路径与查询结构,使得模型能够从数据分布本身学习到URL的通用特征,显著提升跨时间、跨场景的迁移能力。
衍生相关工作
该数据集的出现催生了多个方向的经典工作。例如,基于其预训练权重的微调模型在钓鱼网站检测、垃圾URL分类等任务上刷新了性能记录。同时,研究者也提出了针对URL的专用分词策略和轻量化预训练架构,并利用该数据集的时间戳信息探究URL分布随时间演化的规律,推动了基于时序信息的动态检测方法的发展。
以上内容由遇见数据集搜集并总结生成



