large open-source dataset of legitimate and phishing URLs

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/V-Dickerson/Is-It-Phishy

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含合法和钓鱼URLs的大型开源数据集，用于训练多层感知器模型。

A large-scale open-source dataset containing both legitimate and phishing URLs, designed for training multi-layer perceptron models.

创建时间：

2024-04-15

原始信息汇总

数据集概述

名称：Is-It-Phishy
类型：交互式网络游戏
目的：通过用户与机器学习模型之间的竞争，展示如何检测钓鱼URL。

功能与特点

交互式游戏：用户可以测试URL是否为钓鱼尝试，并与模型进行比较。
学习机会：提供机器学习模型如何进行预测的见解。
开源：所有代码可在GitHub上获取，包括用于训练和导出模型的Jupyter笔记本。

技术架构

后端：使用Flask API提供模型预测。
前端：使用React应用程序处理用户交互。
模型：使用sklearn的MLPClassifier，基于URL特征进行训练。

许可证

类型：GNU General Public License
详情：参见LICENSE文件。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于一个开源项目，旨在通过交互式网络游戏展示机器学习模型在检测钓鱼URL中的应用。数据集的核心是一个多层感知器模型，使用Python中的sklearn、pandas和numpy库开发。该模型通过分析URL的特征来预测其合法性或钓鱼性质。模型的训练过程在Jupyter笔记本中详细记录，并存储在model-config文件夹中，供用户参考和进一步研究。

特点

此数据集的显著特点在于其交互性和教育性。用户不仅可以通过游戏形式与模型进行互动，还能直观地了解机器学习模型如何做出预测。此外，数据集的开放源代码特性使得研究人员和开发者能够自由地学习、修改和分发代码，从而促进了网络安全领域的知识共享和技术进步。

使用方法

该数据集的使用方法多样，既可作为教育工具，也可用于实际的网络安全应用。用户可以通过React前端与Flask后端交互，实时查看模型对URL的预测结果。此外，数据集附带的Jupyter笔记本详细记录了模型的训练和导出过程，为有兴趣深入研究的用户提供了宝贵的参考资料。

背景与挑战

背景概述

随着网络钓鱼攻击的日益猖獗，网络安全领域迫切需要有效的检测手段。Is-It-Phishy数据集应运而生，旨在通过提供合法与钓鱼URL的开放数据集，支持机器学习模型在网络钓鱼检测中的应用。该数据集由V-Dickerson开发，结合了Python中的sklearn、pandas和numpy库，构建了一个多层感知器模型，用于预测URL的合法性。通过集成React前端和Flask后端，用户能够与模型进行互动，实时观察预测结果，从而提升对机器学习模型的理解与应用能力。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，网络钓鱼URL的特征复杂多变，模型需要具备高度的泛化能力以应对不断变化的攻击手段。其次，数据集的构建过程中，如何确保URL样本的多样性和代表性，避免数据偏差，是一个重要的技术难题。此外，用户与模型的互动设计也需要精心考虑，以确保用户体验的同时，不降低模型的预测准确性。

常用场景

经典使用场景

在网络安全领域，该数据集的经典使用场景主要集中在钓鱼URL的检测与分类任务中。通过构建多层感知器模型，研究人员能够利用该数据集训练模型，以识别合法URL与钓鱼URL之间的细微差别。这种模型不仅能够自动化地进行URL分类，还能在实时交互的游戏环境中展示其预测能力，从而提升用户对钓鱼攻击的警觉性。

实际应用

在实际应用中，该数据集及其衍生模型被广泛应用于各类网络安全工具和平台中。例如，企业级防火墙和浏览器插件可以利用这些模型实时检测并阻止钓鱼URL的访问，从而保护用户免受网络钓鱼攻击的威胁。此外，教育机构和网络安全培训项目也利用该数据集进行模拟训练，提升用户的安全意识和应对能力。

衍生相关工作

基于该数据集，许多相关研究工作得以展开，包括但不限于改进的机器学习模型、更高效的特征提取方法以及更复杂的钓鱼URL检测算法。例如，一些研究者通过引入深度学习技术，进一步提升了模型的检测精度；另一些研究则专注于优化模型的实时性能，以适应高并发场景。这些衍生工作不仅丰富了网络安全领域的研究内容，还为实际应用提供了更多技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集