large open-source dataset of legitimate and phishing URLs
收藏github2024-04-28 更新2024-05-31 收录
下载链接:
https://github.com/V-Dickerson/Is-It-Phishy
下载链接
链接失效反馈官方服务:
资源简介:
一个包含合法和钓鱼URLs的大型开源数据集,用于训练多层感知器模型。
A large-scale open-source dataset containing both legitimate and phishing URLs, designed for training multi-layer perceptron models.
创建时间:
2024-04-15
原始信息汇总
数据集概述
- 名称:Is-It-Phishy
- 类型:交互式网络游戏
- 目的:通过用户与机器学习模型之间的竞争,展示如何检测钓鱼URL。
功能与特点
- 交互式游戏:用户可以测试URL是否为钓鱼尝试,并与模型进行比较。
- 学习机会:提供机器学习模型如何进行预测的见解。
- 开源:所有代码可在GitHub上获取,包括用于训练和导出模型的Jupyter笔记本。
技术架构
- 后端:使用Flask API提供模型预测。
- 前端:使用React应用程序处理用户交互。
- 模型:使用sklearn的MLPClassifier,基于URL特征进行训练。
许可证
- 类型:GNU General Public License
- 详情:参见
LICENSE文件。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于一个开源项目,旨在通过交互式网络游戏展示机器学习模型在检测钓鱼URL中的应用。数据集的核心是一个多层感知器模型,使用Python中的sklearn、pandas和numpy库开发。该模型通过分析URL的特征来预测其合法性或钓鱼性质。模型的训练过程在Jupyter笔记本中详细记录,并存储在model-config文件夹中,供用户参考和进一步研究。
特点
此数据集的显著特点在于其交互性和教育性。用户不仅可以通过游戏形式与模型进行互动,还能直观地了解机器学习模型如何做出预测。此外,数据集的开放源代码特性使得研究人员和开发者能够自由地学习、修改和分发代码,从而促进了网络安全领域的知识共享和技术进步。
使用方法
该数据集的使用方法多样,既可作为教育工具,也可用于实际的网络安全应用。用户可以通过React前端与Flask后端交互,实时查看模型对URL的预测结果。此外,数据集附带的Jupyter笔记本详细记录了模型的训练和导出过程,为有兴趣深入研究的用户提供了宝贵的参考资料。
背景与挑战
背景概述
随着网络钓鱼攻击的日益猖獗,网络安全领域迫切需要有效的检测手段。Is-It-Phishy数据集应运而生,旨在通过提供合法与钓鱼URL的开放数据集,支持机器学习模型在网络钓鱼检测中的应用。该数据集由V-Dickerson开发,结合了Python中的sklearn、pandas和numpy库,构建了一个多层感知器模型,用于预测URL的合法性。通过集成React前端和Flask后端,用户能够与模型进行互动,实时观察预测结果,从而提升对机器学习模型的理解与应用能力。
当前挑战
该数据集面临的挑战主要集中在两个方面。首先,网络钓鱼URL的特征复杂多变,模型需要具备高度的泛化能力以应对不断变化的攻击手段。其次,数据集的构建过程中,如何确保URL样本的多样性和代表性,避免数据偏差,是一个重要的技术难题。此外,用户与模型的互动设计也需要精心考虑,以确保用户体验的同时,不降低模型的预测准确性。
常用场景
经典使用场景
在网络安全领域,该数据集的经典使用场景主要集中在钓鱼URL的检测与分类任务中。通过构建多层感知器模型,研究人员能够利用该数据集训练模型,以识别合法URL与钓鱼URL之间的细微差别。这种模型不仅能够自动化地进行URL分类,还能在实时交互的游戏环境中展示其预测能力,从而提升用户对钓鱼攻击的警觉性。
实际应用
在实际应用中,该数据集及其衍生模型被广泛应用于各类网络安全工具和平台中。例如,企业级防火墙和浏览器插件可以利用这些模型实时检测并阻止钓鱼URL的访问,从而保护用户免受网络钓鱼攻击的威胁。此外,教育机构和网络安全培训项目也利用该数据集进行模拟训练,提升用户的安全意识和应对能力。
衍生相关工作
基于该数据集,许多相关研究工作得以展开,包括但不限于改进的机器学习模型、更高效的特征提取方法以及更复杂的钓鱼URL检测算法。例如,一些研究者通过引入深度学习技术,进一步提升了模型的检测精度;另一些研究则专注于优化模型的实时性能,以适应高并发场景。这些衍生工作不仅丰富了网络安全领域的研究内容,还为实际应用提供了更多技术支持。
以上内容由遇见数据集搜集并总结生成



