Phishing and Benign URLs Dataset

github2021-12-09 更新2024-05-31 收录

下载链接：

https://github.com/Harsh-Avinash/Phishing-Website-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含5000个钓鱼URL和5000个合法URL，用于训练机器学习模型以预测钓鱼网站。数据集通过提取URL和网站内容相关的特征，如域名、IP、URL长度等，形成了一个包含18个特征的数据集。

This dataset comprises 5,000 phishing URLs and 5,000 legitimate URLs, designed for training machine learning models to predict phishing websites. By extracting features related to URLs and website content, such as domain names, IP addresses, and URL length, the dataset has been structured to include 18 distinct features.

创建时间：

2021-12-09

原始信息汇总

数据集概述

数据集名称

Phishing-Website-Detection

数据集目的

用于训练机器学习模型和深度神经网络，以预测钓鱼网站。

数据集内容

包含5000个钓鱼URL和5000个合法URL。
提取的特征包括：Domain, Have_IP, Have_At, URL_Length, URL_Depth, Redirection, https, Tiny_URL, Prefix/Suffix, DNS_Record, Web_Traffic, Domain_Age, Domain_End, iFrame, Mouse_Over, Right_Click, Web_Forwards 和 Label。

数据处理

数据预处理包括特征提取和数据清洗。
数据集被分为80%的训练集和20%的测试集。

使用方法

使用两个Python脚本，一个用于数据准备，另一个用于实现和比较机器学习算法。

评估方法

使用了6种机器学习算法：XGboost, Multilayer Perceptrons, Random Forest, Decision Tree, SVM, AutoEncoder。
通过训练集和测试集的预测结果评估模型性能，并通过混淆矩阵和图形化展示比较准确率。

结论

XGboost算法在数据集上表现最佳，提供了最高的准确率。

搜集汇总

数据集介绍

构建方式

Phishing and Benign URLs数据集的构建过程始于对钓鱼网站和良性网站的URL收集。通过精心设计的Python脚本，研究人员从5000个钓鱼网站和5000个良性网站中提取了18个关键特征，包括URL长度、深度、重定向、HTTPS使用、域名年龄等。这些特征经过数据预处理后，被整合成一个包含10,000条记录的数据集，并导出为CSV文件，以便于后续的机器学习模型训练和测试。

使用方法

在使用Phishing and Benign URLs数据集时，研究人员首先将数据集分为训练集和测试集，比例为80:20。随后，利用包括XGBoost、多层感知器、随机森林、决策树、支持向量机和自编码器在内的六种机器学习算法进行模型训练和测试。通过比较各模型在测试集上的准确率，研究人员能够评估并选择最佳的钓鱼网站检测算法。此外，混淆矩阵的绘制帮助可视化了模型的预测效果，进一步验证了模型的性能。

背景与挑战

背景概述

Phishing and Benign URLs Dataset 是一个专注于网络钓鱼检测的数据集，旨在通过机器学习模型和深度神经网络来预测钓鱼网站。该数据集由5000个钓鱼URL和5000个良性URL组成，涵盖了从URL和网页内容中提取的多种特征，如域名、IP地址、URL长度、重定向等。该数据集的研究背景源于网络钓鱼攻击的日益猖獗，钓鱼网站通过模仿可信的URL和网页内容，诱骗用户泄露敏感信息。该数据集的创建时间为近期，主要研究人员包括Harsh Avinash和Seshank K，他们的研究目标是通过比较多种机器学习算法的性能，找到最佳的钓鱼网站检测模型。该数据集对网络安全领域具有重要意义，尤其是在提升钓鱼网站检测的准确性和效率方面。

当前挑战

Phishing and Benign URLs Dataset 面临的挑战主要集中在两个方面。首先，钓鱼网站检测本身具有较高的复杂性，钓鱼网站的设计者通常会采用多种技术手段来掩盖其恶意意图，使得传统的检测方法难以应对。其次，在数据集的构建过程中，研究人员需要从大量的URL中提取有效的特征，并确保这些特征能够准确区分钓鱼网站和良性网站。此外，数据集的平衡性也是一个重要挑战，确保钓鱼URL和良性URL的数量相等，以避免模型训练时的偏差。最后，选择合适的机器学习算法并优化其性能，也是该数据集研究中的一大挑战。

常用场景

经典使用场景

在网络安全领域，Phishing and Benign URLs Dataset 主要用于训练和评估机器学习模型，以识别和分类钓鱼网站与合法网站。通过提取URL和网页内容的关键特征，研究人员能够构建高效的检测系统，从而在网络环境中实时识别潜在的钓鱼攻击。

解决学术问题

该数据集解决了网络安全领域中钓鱼网站检测的难题。通过提供大量标注的钓鱼和合法URL样本，研究人员能够开发出高精度的分类模型，显著提升了钓鱼网站识别的准确性和效率。这一成果不仅推动了机器学习在网络安全中的应用，还为相关领域的学术研究提供了宝贵的数据支持。

实际应用

在实际应用中，Phishing and Benign URLs Dataset 被广泛用于构建网络安全防护系统。例如，企业可以利用该数据集训练模型，集成到其防火墙或邮件过滤系统中，自动拦截钓鱼网站链接，保护用户免受网络诈骗的侵害。此外，该数据集还可用于开发浏览器插件，实时警告用户访问的网站是否为钓鱼网站。

数据集最近研究