phishing_dataset|钓鱼网站检测数据集|网络安全数据集
收藏github2023-12-16 更新2024-05-31 收录
下载链接:
https://github.com/sibelkapan/phishing_dataset
下载链接
链接失效反馈资源简介:
从PhishTank收集了500个钓鱼网站,从Alexa收集了500个合法网站。数据集按照70%用于训练,30%用于测试的比例分割。
A total of 500 phishing websites were collected from PhishTank, and 500 legitimate websites were gathered from Alexa. The dataset was divided with 70% allocated for training and 30% for testing purposes.
创建时间:
2023-01-09
原始信息汇总
phishing_dataset 数据集概述
数据集组成
- 收集了500个钓鱼网站,来源于PhishTank。
- 收集了500个合法网站,来源于Alexa。
- 数据集按照70%用于训练,30%用于测试的比例划分。
特征描述
URL特征
- 域名相似度:基于Ratcliff-Obershelp算法计算的访问网站域名与Alexa或PhishTank获取的URL域名之间的相似度。
- URL长度:URL中所有字符的数量。
- HTTP协议类型:标准(0)或安全(1)。
- .符号数量:URL中点符号的数量。
- /符号数量:URL中斜杠符号的数量。
- //符号数量:URL中双斜杠符号的数量。
- -符号数量:URL中减号符号的数量。
- _符号数量:URL中下划线符号的数量。
- =符号数量:URL中等于符号的数量。
- (和)符号数量:URL中括号符号的数量。
- {和}符号数量:URL中花括号符号的数量。
- [和]符号数量:URL中方括号符号的数量。
- <和>符号数量:URL中小于和大于符号的数量。
- ~符号数量:URL中波浪线符号的数量。
- *符号数量:URL中星号符号的数量。
- +符号数量:URL中加号符号的数量。
- @符号的包含情况:URL中是否包含@符号(1表示包含,0表示不包含)。
- IP地址的包含情况:URL中是否包含IP地址(1表示包含,0表示不包含)。
HTML特征
- <a>标签数量:网站中<a>标签的数量,用于创建超链接或锚链接。
- <input>标签数量:网站中<input>标签的数量,用于创建各种类型的交互式表单元素。
- <button>标签数量:网站中<button>标签的数量,用于创建可点击按钮以触发操作或提交表单。
- <link>标签数量:网站中<link>标签的数量,用于链接外部资源如样式表、图标和其他文档。
- <iFrame>标签数量:网站中<iFrame>标签的数量,用于嵌入外部资源如其他HTML文档、视频或网页。
HTTP特征
- HTTP响应历史:服务器返回的HTTP响应代码,指示客户端请求的结果。
- 重定向情况:网站是否重定向到另一个站点(1表示重定向,0表示不重定向),通过HTTP重定向响应代码检测。
引用文献
- Kapan, S.; Sora Gunal, E. Improved Phishing Attack Detection with Machine Learning: A Comprehensive Evaluation of Classifiers and Features. Appl. Sci. 2023, 13, 13269.
AI搜集汇总
数据集介绍

构建方式
在构建phishing_dataset时,研究者从PhishTank收集了500个钓鱼网站样本,同时从Alexa获取了500个合法网站样本。数据集通过将这些样本按照70%训练集和30%测试集的比例进行划分,确保了模型训练与评估的平衡性。
特点
该数据集具有多维度的特征描述,涵盖了URL和HTML的多个方面。URL特征包括域名相似度、URL长度、协议类型等,而HTML特征则涉及网页元素如<a>标签、<input>标签的数量等。此外,HTTP响应历史和重定向信息也被纳入,为识别钓鱼网站提供了全面的特征支持。
使用方法
使用phishing_dataset时,用户可以利用其丰富的特征集进行机器学习模型的训练与评估。通过分析URL和HTML的特征,结合HTTP响应信息,可以构建高效的钓鱼网站检测模型。数据集的划分方式也便于用户进行模型验证,确保检测算法的准确性和鲁棒性。
背景与挑战
背景概述
随着网络钓鱼攻击的日益猖獗,网络安全领域迫切需要有效的检测手段。phishing_dataset数据集应运而生,由Kapan和Sora Gunal于2023年创建,旨在通过机器学习技术提升钓鱼网站的检测能力。该数据集从PhishTank和Alexa分别收集了500个钓鱼网站和500个合法网站,涵盖了URL和HTML特征,如域名相似度、URL长度、HTTP协议类型等,为研究者提供了一个全面的评估平台。这一数据集的发布,不仅为网络安全领域的研究提供了宝贵的资源,也为开发更高效的钓鱼攻击检测算法奠定了基础。
当前挑战
尽管phishing_dataset为钓鱼网站检测提供了丰富的特征集,但其构建和应用过程中仍面临诸多挑战。首先,数据集的特征选择和提取需要深入理解网络钓鱼的复杂性,如何从海量数据中筛选出最具代表性的特征是一个关键问题。其次,钓鱼网站的伪装手段不断升级,导致特征的时效性和准确性难以保证。此外,数据集的平衡性问题也不容忽视,钓鱼网站与合法网站的比例可能影响模型的训练效果。最后,如何在实际应用中高效地部署和更新检测模型,以应对不断变化的网络环境,也是亟待解决的难题。
常用场景
经典使用场景
phishing_dataset数据集的经典使用场景主要集中在网络钓鱼攻击的检测与分类任务中。通过分析URL和HTML特征,研究人员可以构建机器学习模型,识别潜在的钓鱼网站。该数据集提供了丰富的特征,如域名相似度、URL长度、HTTP协议类型等,这些特征为模型训练提供了坚实的基础,使得模型能够有效区分合法网站与钓鱼网站。
解决学术问题
phishing_dataset数据集解决了网络安全领域中钓鱼网站检测的关键问题。通过提供详细的URL和HTML特征,该数据集帮助研究人员开发和验证各种机器学习算法,从而提高钓鱼网站检测的准确性和效率。这一研究不仅推动了网络安全技术的发展,还为学术界提供了宝贵的实验数据,促进了相关领域的深入研究。
衍生相关工作
基于phishing_dataset数据集,研究人员开发了多种钓鱼网站检测模型,并在此基础上进行了深入的特征工程和算法优化。例如,一些研究工作通过引入深度学习技术,进一步提升了检测模型的性能。此外,该数据集还激发了关于特征选择和模型解释性的研究,推动了钓鱼网站检测领域的技术进步和理论发展。
以上内容由AI搜集并总结生成



