Phishing URL Dataset

github2025-08-29 更新2025-08-30 收录

下载链接：

https://github.com/Laashya16/phishing-url-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含用于钓鱼URL检测的数据集和预处理脚本，目标是提供一个干净、结构化的数据集，包含可直接由ML工程师用于训练模型的提取特征。数据集包括原始钓鱼URL数据集、原始合法URL数据集、合并数据集以及带有提取特征的最终清理数据集

This repository hosts datasets and preprocessing scripts for phishing URL detection. It aims to deliver a clean, structured dataset with extracted features that can be directly employed by ML engineers for model training. The datasets encompass original phishing URL datasets, original legitimate URL datasets, merged datasets, and the final cleaned dataset with extracted features.

创建时间：

2025-08-29

原始信息汇总

数据集概述

数据集名称

Phishing URL Dataset

数据集来源

GitHub仓库：https://github.com/Laashya16/phishing-url-dataset

数据集内容

phishing.csv：原始钓鱼URL数据集
legitimate.csv：原始合法URL数据集
merged_dataset.csv：合并后的钓鱼和合法URL数据集
final_features.csv：包含提取特征的最终清洗数据集

数据特征

最终数据集（final_features.csv）包含以下列：

url：URL地址
label：标签（1表示钓鱼，0表示合法）
提取的特征：包括长度、数字数量、符号数量等

数据处理流程

数据采集：收集钓鱼和合法URL
数据清洗：去除重复项并标准化URL格式
数据集合并：合并钓鱼和合法数据集
特征提取：生成附加特征（长度、点数、特殊字符等）

适用用途

可直接用于机器学习模型训练，适用于：

逻辑回归
随机森林
XGBoost等算法

评估指标

建议使用以下指标进行评估：

准确率
精确率
召回率
F1分数

搜集汇总

数据集介绍

构建方式

在网络钓鱼检测研究领域，数据质量直接影响模型性能。该数据集通过系统化工程流程构建：首先从公开渠道采集原始钓鱼网址和合法网址，随后执行数据清洗以去除重复项并统一URL格式；接着合并两类数据并添加二进制标注；最终通过特征提取脚本生成包含URL长度、数字数量、特殊符号数量等结构化特征的数据表。

使用方法

使用者可通过Git克隆获取完整数据集与预处理脚本。加载final_features.csv后，可直接调用Pandas等工具进行模型训练。数据集已结构化处理，无需额外特征工程，支持逻辑回归、随机森林等分类算法。建议按照机器学习标准流程划分训练集与测试集，并基于准确率、F1值等指标评估模型性能。

背景与挑战

背景概述

网络钓鱼URL检测数据集诞生于网络安全威胁日益严峻的数字时代，由数据工程师Laashya16主导构建。该数据集专注于识别恶意钓鱼网址这一核心研究问题，通过系统收集 phishing 和 legitimate 两类URL样本，为机器学习模型提供高质量训练数据。其在网络安全领域具有重要影响力，为构建自动化钓鱼网站检测系统提供了关键数据支撑，有效助力于保护用户隐私和数字资产安全。

当前挑战

该数据集主要应对网络钓鱼网址识别的分类挑战，包括处理URL特征的多样性和隐蔽性，以及区分高度伪装的钓鱼网址与合法网址的复杂性。在构建过程中面临数据质量控制的挑战，需要清除重复样本并统一URL格式标准；同时特征工程环节需克服高维稀疏特征提取的难题，确保提取的URL长度、数字符号等特征具有区分度和解释性。

常用场景

经典使用场景

在网络安全领域，Phishing URL Dataset作为经典的恶意网址检测基准数据集，主要用于训练和评估机器学习模型识别钓鱼网站的能力。研究人员通过提取URL长度、特殊字符数量、数字占比等特征，构建分类模型来区分合法与欺诈网址，为网络威胁情报分析提供重要数据支撑。

解决学术问题

该数据集有效解决了网络空间安全中钓鱼网站自动检测的学术难题，通过提供标注清晰的URL样本和标准化特征工程流程，显著提升了恶意网址识别的准确率与效率。其结构化特征设计为研究特征重要性、模型可解释性以及少样本学习等方向提供了坚实基础，推动了安全机器学习领域的方法创新。

实际应用

实际应用中，该数据集被集成到企业网络安全防护系统、浏览器风险提示插件及邮件过滤网关中，实现对钓鱼链接的实时拦截与预警。金融机构和电商平台借助基于该数据集训练的模型，有效保护用户免受账户窃取和财产损失，大幅降低了网络诈骗的成功率。

数据集最近研究