mafiabasbush/phreshphish
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mafiabasbush/phreshphish
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
size_categories:
- 100K<n<1M
task_categories:
- text-classification
pretty_name: PhreshPhish
configs:
- config_name: default
data_files:
- split: train
path: "data/train-*.parquet"
- split: test
path: "data/test-*.parquet"
---
# PhreshPhish
PhreshPhish is a **large-scale**, **real-world** dataset and benchmark for phishing webpage detection containing phishing and benign HTML-URL pairs.
- **Train** 498,255 samples: 276,729 benign and 221,526 phish
- **Test** 168,060 samples: 91,260 benign and 76,876 phish
- **Benchmarks** 975 benchmarks with base rates ranging from `[5e-4, 1e-3, 5e-3, 1e-2, 5e-2]`
## Changelog
- **v1.0.1 (2026-02-07)**: Added ~200k new samples collected between March and December 2025, improved temporal consistency by downsampling some earlier samples
- **v1.0.0 (2025-05-14)**: Initial release
## Getting Started
```python
from datasets import load_dataset
train = load_dataset('phreshphish/phreshphish', split='train')
test = load_dataset('phreshphish/phreshphish', split='test')
```
## License & Terms of Use
The dataset is released under [Creative Commons Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/) license and should only be used for anti-phishing research.
## Citing
If you find our work useful, please consider citing.
Paper: [PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark](https://huggingface.co/papers/2507.10854)
```bibtex
@article{dalton2025phreshphish,
title = {PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark},
author = {Thomas Dalton and Hemanth Gowda and Girish Rao and Sachin Pargi and Alireza Hadj Khodabakhshi and Joseph Rombs and Stephan Jou and Manish Marwah},
year = 2025,
journal = {arXiv preprint},
url = {https://arxiv.org/abs/2507.10854},
eprint = {2507.10854}
}
```
提供机构:
mafiabasbush
搜集汇总
数据集介绍

构建方式
PhreshPhish数据集面向网络钓鱼检测这一关键安全领域,以大规模、真实世界的数据为基石构建而成。其样本来源于实际网络环境中采集的恶意与良性HTML-URL配对数据,通过精心筛选与标注,确保数据的高质量和真实性。训练集包含约49.8万条样本,其中良性样本27.6万余条、网络钓鱼样本22.1万余条;测试集包含约16.8万条样本,两类样本分布均衡。数据集历经版本迭代,v1.0.1版本新增了2025年3月至12月间收集的约20万条新样本,并通过下采样早期数据以增强时间一致性,使其更适应动态变化的网络威胁环境。
特点
该数据集的核心特点在于其庞大规模与高度真实性,涵盖了复杂多变的网络钓鱼攻击场景,为模型训练提供了丰富的特征空间。其基准测试设计颇具匠心,包含975个不同基率(从5e-4到5e-2)的子基准,能够全面评估检测算法在多种实际部署场景下的鲁棒性与泛化能力。此外,数据集以HTML-URL配对形式呈现,保留了网页的完整结构与语义信息,有助于深度挖掘钓鱼页面的模式特征,支持从视觉渲染到代码逻辑的多种检测路径。
使用方法
PhreshPhish数据集以HuggingFace上的标准化格式发布,便于研究者快速集成与复用。用户可通过加载HuggingFace Datasets库,直接以一行代码获取训练集与测试集。数据集划分为default配置,数据以Parquet格式存储,支持高效读取与处理。建议研究者基于其提供的基准测试框架进行模型性能评估,以验证在不同基率下的检测效果。数据集仅限用于反网络钓鱼研究,使用时需遵守CC-BY-4.0许可协议,并引用相关论文以促进学术交流与成果比较。
背景与挑战
背景概述
PhreshPhish数据集由Thomas Dalton等学者于2025年创建,旨在应对日益严峻的网络钓鱼威胁,该领域传统数据集多因标注质量低、时效性差而难以支撑实际应用。该数据集以大规模、真实世界为特色,包含近50万条训练样本和16.8万条测试样本,并精心设计了975个不同基率(5e-4至5e-2)的基准测试,为钓鱼网页检测研究提供了高时效性与高保真度的评估平台。其发布在计算机安全领域产生了显著影响,推动了基于文本分类的钓鱼检测方法从理论走向真实环境的验证,弥补了现有开源基准在数据规模与场景覆盖上的不足。
当前挑战
该数据集核心挑战在于解决钓鱼网页检测中的领域问题,即如何在海量真实网页中精确区分钓鱼与良性HTML-URL对,以应对钓鱼攻击手段的快速演变与伪装技术的日臻精妙。构建过程中,主要挑战包括:一、确保数据的高时效性与真实性,需持续收集并标注近一年内的新样本,同时通过时间一致性调整消除历史数据偏差;二、克服钓鱼网页生存周期短、URL频繁失效的难题,以维持数据集的有效性;三、设计合理的基准测试基率(5e-4至5e-2),以模拟现实中极端不平衡的类别分布,从而提升模型在低基率场景下的鲁棒性。
常用场景
经典使用场景
在网络空间安全领域,PhreshPhish数据集以其大规模、真实世界采集的特性,成为钓鱼网页检测研究的标杆性基准。该数据集包含近五十万条训练样本与十六万余条测试样本,涵盖恶意钓鱼页面与良性网页的HTML-URL配对数据,为基于文本分类的检测模型提供了极为丰富的训练与评估资源。研究人员可借助其默认的文本分类任务配置,构建深度学习或传统机器学习模型,通过分析网页源码与URL特征,精准区分钓鱼攻击与正常访问,从而有效提升网络威胁的识别能力。
实际应用
在实际应用层面,PhreshPhish数据集为网络钓鱼防御系统的开发与部署提供了坚实基础。安全厂商可基于该数据集训练高效的URL与网页内容过滤引擎,将其集成到浏览器扩展、邮件网关或企业防火墙中,实现对钓鱼网站的实时拦截。此外,数据集支持多基率基准测试,使得安全团队能够在不同的攻击频率情境下评估系统性能,从而优化误报率与漏报率之间的平衡。最终,这些实际应用有助于降低用户遭受身份窃取、金融欺诈等钓鱼攻击的风险,提升整体网络生态的安全性。
衍生相关工作
PhreshPhish的发布催生了一系列衍生的经典研究工作。首先,该数据集被广泛用于对比验证新型钓鱼检测算法,如基于Transformer的文本分类模型、图神经网络分析网页结构等方法的有效性。其次,围绕其基率基准,研究者提出了多种不平衡学习策略,例如代价敏感学习与过采样技术,以应对现实世界中极低钓鱼基率的挑战。此外,数据集的时间序列特征促进了时间自适应检测模型的研究,推动了对概念漂移问题的深入探索。这些衍生工作进一步丰富了网络威胁检测领域的技术生态,并为后续研究提供了坚实的参照标准。
以上内容由遇见数据集搜集并总结生成



