mafiabasbush/phreshphish

Name: mafiabasbush/phreshphish
Creator: mafiabasbush
Published: 2026-04-10 15:25:59
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/mafiabasbush/phreshphish

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 size_categories: - 100K<n<1M task_categories: - text-classification pretty_name: PhreshPhish configs: - config_name: default data_files: - split: train path: "data/train-*.parquet" - split: test path: "data/test-*.parquet" --- # PhreshPhish PhreshPhish is a **large-scale**, **real-world** dataset and benchmark for phishing webpage detection containing phishing and benign HTML-URL pairs. - **Train** 498,255 samples: 276,729 benign and 221,526 phish - **Test** 168,060 samples: 91,260 benign and 76,876 phish - **Benchmarks** 975 benchmarks with base rates ranging from `[5e-4, 1e-3, 5e-3, 1e-2, 5e-2]` ## Changelog - **v1.0.1 (2026-02-07)**: Added ~200k new samples collected between March and December 2025, improved temporal consistency by downsampling some earlier samples - **v1.0.0 (2025-05-14)**: Initial release ## Getting Started ```python from datasets import load_dataset train = load_dataset('phreshphish/phreshphish', split='train') test = load_dataset('phreshphish/phreshphish', split='test') ``` ## License & Terms of Use The dataset is released under [Creative Commons Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/) license and should only be used for anti-phishing research. ## Citing If you find our work useful, please consider citing. Paper: [PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark](https://huggingface.co/papers/2507.10854) ```bibtex @article{dalton2025phreshphish, title = {PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark}, author = {Thomas Dalton and Hemanth Gowda and Girish Rao and Sachin Pargi and Alireza Hadj Khodabakhshi and Joseph Rombs and Stephan Jou and Manish Marwah}, year = 2025, journal = {arXiv preprint}, url = {https://arxiv.org/abs/2507.10854}, eprint = {2507.10854} } ```

提供机构：

mafiabasbush

搜集汇总

数据集介绍

构建方式

PhreshPhish数据集面向网络钓鱼检测这一关键安全领域，以大规模、真实世界的数据为基石构建而成。其样本来源于实际网络环境中采集的恶意与良性HTML-URL配对数据，通过精心筛选与标注，确保数据的高质量和真实性。训练集包含约49.8万条样本，其中良性样本27.6万余条、网络钓鱼样本22.1万余条；测试集包含约16.8万条样本，两类样本分布均衡。数据集历经版本迭代，v1.0.1版本新增了2025年3月至12月间收集的约20万条新样本，并通过下采样早期数据以增强时间一致性，使其更适应动态变化的网络威胁环境。

特点

该数据集的核心特点在于其庞大规模与高度真实性，涵盖了复杂多变的网络钓鱼攻击场景，为模型训练提供了丰富的特征空间。其基准测试设计颇具匠心，包含975个不同基率（从5e-4到5e-2）的子基准，能够全面评估检测算法在多种实际部署场景下的鲁棒性与泛化能力。此外，数据集以HTML-URL配对形式呈现，保留了网页的完整结构与语义信息，有助于深度挖掘钓鱼页面的模式特征，支持从视觉渲染到代码逻辑的多种检测路径。

使用方法

PhreshPhish数据集以HuggingFace上的标准化格式发布，便于研究者快速集成与复用。用户可通过加载HuggingFace Datasets库，直接以一行代码获取训练集与测试集。数据集划分为default配置，数据以Parquet格式存储，支持高效读取与处理。建议研究者基于其提供的基准测试框架进行模型性能评估，以验证在不同基率下的检测效果。数据集仅限用于反网络钓鱼研究，使用时需遵守CC-BY-4.0许可协议，并引用相关论文以促进学术交流与成果比较。

背景与挑战

背景概述

PhreshPhish数据集由Thomas Dalton等学者于2025年创建，旨在应对日益严峻的网络钓鱼威胁，该领域传统数据集多因标注质量低、时效性差而难以支撑实际应用。该数据集以大规模、真实世界为特色，包含近50万条训练样本和16.8万条测试样本，并精心设计了975个不同基率（5e-4至5e-2）的基准测试，为钓鱼网页检测研究提供了高时效性与高保真度的评估平台。其发布在计算机安全领域产生了显著影响，推动了基于文本分类的钓鱼检测方法从理论走向真实环境的验证，弥补了现有开源基准在数据规模与场景覆盖上的不足。

当前挑战

该数据集核心挑战在于解决钓鱼网页检测中的领域问题，即如何在海量真实网页中精确区分钓鱼与良性HTML-URL对，以应对钓鱼攻击手段的快速演变与伪装技术的日臻精妙。构建过程中，主要挑战包括：一、确保数据的高时效性与真实性，需持续收集并标注近一年内的新样本，同时通过时间一致性调整消除历史数据偏差；二、克服钓鱼网页生存周期短、URL频繁失效的难题，以维持数据集的有效性；三、设计合理的基准测试基率（5e-4至5e-2），以模拟现实中极端不平衡的类别分布，从而提升模型在低基率场景下的鲁棒性。

常用场景

经典使用场景

在网络空间安全领域，PhreshPhish数据集以其大规模、真实世界采集的特性，成为钓鱼网页检测研究的标杆性基准。该数据集包含近五十万条训练样本与十六万余条测试样本，涵盖恶意钓鱼页面与良性网页的HTML-URL配对数据，为基于文本分类的检测模型提供了极为丰富的训练与评估资源。研究人员可借助其默认的文本分类任务配置，构建深度学习或传统机器学习模型，通过分析网页源码与URL特征，精准区分钓鱼攻击与正常访问，从而有效提升网络威胁的识别能力。

实际应用

在实际应用层面，PhreshPhish数据集为网络钓鱼防御系统的开发与部署提供了坚实基础。安全厂商可基于该数据集训练高效的URL与网页内容过滤引擎，将其集成到浏览器扩展、邮件网关或企业防火墙中，实现对钓鱼网站的实时拦截。此外，数据集支持多基率基准测试，使得安全团队能够在不同的攻击频率情境下评估系统性能，从而优化误报率与漏报率之间的平衡。最终，这些实际应用有助于降低用户遭受身份窃取、金融欺诈等钓鱼攻击的风险，提升整体网络生态的安全性。

衍生相关工作

PhreshPhish的发布催生了一系列衍生的经典研究工作。首先，该数据集被广泛用于对比验证新型钓鱼检测算法，如基于Transformer的文本分类模型、图神经网络分析网页结构等方法的有效性。其次，围绕其基率基准，研究者提出了多种不平衡学习策略，例如代价敏感学习与过采样技术，以应对现实世界中极低钓鱼基率的挑战。此外，数据集的时间序列特征促进了时间自适应检测模型的研究，推动了对概念漂移问题的深入探索。这些衍生工作进一步丰富了网络威胁检测领域的技术生态，并为后续研究提供了坚实的参照标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集