Web_page_Phishing

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/yonatane22-bh/Web_page_Phishing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“网页钓鱼检测”，包含11,430个标记为合法或钓鱼的URL，每个URL提取了87个特征。数据集来源于Kaggle，由Shashwat Tiwari提供。经过清洗后，数据集包含10,492个URL和12个精选特征，目标变量为二分类（0表示合法，1表示钓鱼）。数据集类别平衡，各占50%。精选的12个特征包括URL长度、点数量、连字符数量、@符号存在性、域名年龄、域名注册时长、网站流量、Google索引状态、页面排名、HTML标签中的外部链接比例、URL中的可疑词数量等。数据集经过严格清洗，无缺失值，删除了938个重复行，保留了所有异常值，因为这些异常值可能包含有用的钓鱼信号。该数据集适用于钓鱼检测、网络安全和机器学习分类任务。

创建时间：

2026-04-07

原始信息汇总

数据集概述

基本信息

数据集名称：Web Page Phishing Detection
托管地址：https://huggingface.co/datasets/yonatane22-bh/Web_page_Phishing
原始来源：Kaggle — Shashwat Tiwari
创建者：Yonatane Ben-Aroch, Reichman University
日期：April 2026

数据内容

原始数据：包含 11,430 个 URL，每个 URL 有 87 个特征。
处理后数据：包含 10,492 个 URL，每个 URL 有 12 个特征。
目标变量：二元分类，0 代表合法（Legitimate），1 代表钓鱼（Phishing）。
类别分布：完全平衡，各包含 5,715 个样本。

特征说明

分析中使用了以下 12 个易于解释的特征：

序号	特征	描述
1	`length_url`	URL 的总字符长度
2	`nb_dots`	URL 中的点数
3	`nb_hyphens`	URL 中的连字符数
4	`nb_at`	URL 是否包含 `@` 符号
5	`domain_age`	域名年龄（月）
6	`domain_registration_length`	域名注册时长
7	`web_traffic`	网站入站流量
8	`google_index`	网站是否出现在谷歌搜索中
9	`page_rank`	页面的通用信任评分
10	`links_in_tags`	HTML 标签中外部链接的百分比
11	`phish_hints`	URL 中可疑词汇（如 "login", "secure"）的数量
12	`status`	目标变量：0 = 合法，1 = 钓鱼

数据清洗

缺失值：所选 12 个特征中均未发现缺失值。
重复值：发现并移除了 938 个重复行，数据集从 11,430 行减少至 10,492 行。
异常值：使用 IQR 方法在多个特征中检测到异常值，但均予以保留，因为它们代表了可用于钓鱼检测的真实行为信号。

关键发现

URL 结构差异：钓鱼 URL 平均长度为 73.7 个字符，合法 URL 为 47.4 个字符，前者约为后者的 1.6 倍。钓鱼 URL 平均包含 2.76 个点，合法 URL 为 2.20 个。
域名年龄差异：合法域名的平均年龄约为 5,063 个月，钓鱼域名约为 2,821 个月，前者约为后者的 1.8 倍。
谷歌索引特征：google_index 特征与目标变量的相关性最强（0.72）。在该数据集中，其高值可能表示网站在谷歌索引方面存在可疑行为，是钓鱼检测的最佳单特征预测指标。
特征相关性：与目标变量相关性最高的特征依次为：google_index (0.72)、page_rank (0.52)、phish_hints (0.36)、domain_age (0.36)、length_url (0.24)。
类别区分度：两类样本在几乎所有特征上均表现出清晰的视觉差异，表明这些特征对于构建分类器是有效的。

数据集质量

无缺失值。
已移除重复行。
类别完全平衡。
所有 12 个特征均为数值型。
基于真实世界的 URL 模式。
保留了有意义的异常值。

文件列表

phishing_clean.csv：清洗后的数据集（10,492 行 × 12 列）。
stats.csv：所有特征的汇总统计信息。
Copy_of_Assignment_1_EDA_&_Dataset (1).ipynb：完整分析笔记。
figures/ 目录下包含多个分析图表文件，如类别分布图、特征分布直方图、相关性热力图以及针对五个研究问题的具体分析图表。

搜集汇总

数据集介绍

构建方式

在网络安全领域，钓鱼攻击检测依赖于对恶意URL特征的精准识别。Web_page_Phishing数据集通过从Kaggle平台获取原始数据，精心筛选了12个易于解释且具有判别力的特征，涵盖了URL结构、域名属性及网络声誉等多个维度。原始数据包含11,430个URL样本，经过清洗去除重复项后，最终保留了10,492个样本，确保了数据的纯净性与代表性。构建过程中特别保留了异常值，因为这些极端情况往往反映了钓鱼网站的真实行为模式，为模型训练提供了关键信号。

特点

该数据集在钓鱼检测领域展现出鲜明的特性，其类别分布完美平衡，包含5,715个合法URL与5,715个钓鱼URL，有效避免了类别不平衡带来的建模偏差。所选特征均具有明确的物理意义，如URL长度、域名年龄及Google索引状态等，使得数据分析过程直观可解释。特征间相关性分析显示，google_index与page_rank等指标与目标变量关联显著，而URL结构特征虽单独作用较弱，但组合后能增强模型的判别能力。数据质量方面，无缺失值且异常值被合理保留，确保了数据集的完整性与现实代表性。

使用方法

基于该数据集构建钓鱼检测模型时，建议首先利用其平衡的类别分布进行基准模型训练，无需额外采用过采样或欠采样技术。特征工程可聚焦于google_index、page_rank及phish_hints等强相关变量，同时结合URL长度与域名年龄等辅助特征，以构建多维判别体系。在模型评估阶段，可通过交叉验证验证分类器的稳健性，并利用特征重要性排序进一步优化特征子集。该数据集亦适用于可视化分析，如通过分布对比与热力图揭示两类URL的差异模式，为检测算法的可解释性提供支撑。

背景与挑战

背景概述

网络钓鱼检测作为网络安全领域的关键分支，旨在识别伪装成合法实体的欺诈性网站，以保护用户免受信息窃取与金融欺诈。Web_page_Phishing数据集由Reichman大学的研究人员于2026年构建，其核心研究问题聚焦于通过URL的多元特征自动化区分钓鱼网站与合法网站。该数据集收录了11,430个标记样本，涵盖87个从URL结构、域名属性到网络声誉等维度的特征，为机器学习模型提供了丰富的判别依据。其在Kaggle平台的公开促进了学术界与工业界对轻量级、可解释钓鱼检测方法的探索，推动了特征工程与模型可解释性在该领域的深度融合。

当前挑战

该数据集致力于解决网络钓鱼检测中的二元分类挑战，即如何从高维特征中精准识别钓鱼网站。具体挑战包括：特征间相关性较弱，需依赖多特征组合而非单一强信号；钓鱼攻击手段持续演化，要求模型具备良好的泛化能力以应对新型欺诈模式。在构建过程中，挑战主要体现在数据清洗与特征选择层面：原始数据包含大量重复样本与异常值，需在保留真实攻击模式与去除噪声之间取得平衡；同时，从87个原始特征中筛选出12个兼具可解释性与判别力的子集，要求深入理解网络协议与安全领域的先验知识，以避免信息损失并确保特征工程的科学性。

常用场景

经典使用场景

在网络安全领域，钓鱼网站检测是防范网络欺诈的关键环节。Web_page_Phishing数据集以其精心筛选的URL特征，为机器学习模型提供了经典训练与评估场景。研究者通常利用该数据集构建二分类模型，通过分析URL长度、域名年龄及谷歌索引状态等特征，精准区分合法与钓鱼网站。其平衡的类别分布确保了模型训练的稳定性，而保留的异常值则增强了模型对真实攻击模式的识别能力，使得该数据集成为验证检测算法性能的基准平台。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在特征优化与混合模型构建方面。研究者通过引入图神经网络分析URL的拓扑结构，或结合自然语言处理技术解析钓鱼提示词，进一步提升了检测精度。此外，部分工作将该数据集与WHOIS信息、SSL证书数据等多源信息融合，构建了跨平台威胁情报系统。这些衍生研究不仅扩展了数据集的学术价值，还催生了如PhishNet、URLGuard等一系列开源检测框架，持续推动着钓鱼检测技术的迭代与创新。

数据集最近研究