Phishing-Dataset

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/GregaVrbancic/Phishing-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供了两个版本的钓鱼网站数据集。完整版数据集包含88,647个实例，其中58,000个是合法网站实例，30,647个是钓鱼网站实例，共有111个特征。小型版数据集包含58,645个实例，其中27,998个是合法网站实例，30,647个是钓鱼网站实例，同样有111个特征。

This repository provides two versions of phishing website datasets. The complete dataset comprises 88,647 instances, including 58,000 legitimate website instances and 30,647 phishing website instances, featuring a total of 111 attributes. The smaller version of the dataset contains 58,645 instances, with 27,998 legitimate website instances and 30,647 phishing website instances, also encompassing 111 attributes.

创建时间：

2019-05-23

原始信息汇总

数据集概述

数据集名称

Datasets for Phishing Websites Detection

数据集变体

dataset_full.csv
- 总实例数: 88,647
  - 合法网站实例数 (标签为0): 58,000
  - 钓鱼网站实例数 (标签为1): 30,647
- 总特征数: 111 (不含目标)
dataset_small.csv
- 总实例数: 58,645
  - 合法网站实例数 (标签为0): 27,998
  - 钓鱼网站实例数 (标签为1): 30,647
- 总特征数: 111 (不含目标)

特征描述

URL相关特征
- 如URL中的字符计数（例如.、-、_、/、?、=、@、&、!、、~、,、+、*、#、$、%）
- 顶级域名长度
- URL长度
域名相关特征
- 域名字符计数（同上）
- 域名长度
- 域名是否为IP格式
- 域名是否包含“server”或“client”
目录相关特征
- 目录字符计数（同上）
- 目录长度
文件相关特征
- 文件字符计数（同上）
- 文件长度
参数相关特征
- 参数字符计数（同上）
- 参数长度
- 参数中顶级域名的存在
- 参数数量
其他特征
- 电子邮件在URL中的存在
- 搜索时间（响应）
- 域名是否有SPF记录
- AS号（ASN）
- 域名激活时间
- 域名到期时间
- 解析的IP数量
- 解析的名称服务器数量
- MX服务器数量
- 与主机名关联的TTL值
- 有效的TLS/SSL证书
- 重定向数量
- URL和域名在Google的索引状态
- URL是否被缩短
- 是否为钓鱼网站

引用信息

G. Vrbančič, I. Jr. Fister, V. Podgorelec. Datasets for Phishing Websites Detection. Data in Brief, Vol. 33, 2020, DOI: 10.1016/j.dib.2020.106438

搜集汇总

数据集介绍

构建方式

Phishing-Dataset的构建基于对大量网站URL的详细分析与特征提取。该数据集通过系统性地收集合法与钓鱼网站的实例，并对其URL结构、域名特征、文件与参数的组成等进行量化统计，从而生成111个特征。这些特征涵盖了URL中的符号数量、域名长度、TLD（顶级域名）信息、以及与域名相关的响应时间、证书状态等多维度信息。通过这种方式，数据集为钓鱼网站的检测提供了丰富的特征基础。

使用方法

Phishing-Dataset的使用方法灵活多样。用户可以通过访问专门的Web应用程序，对数据集进行交互式预览与定制化处理。数据集以CSV格式提供，便于直接导入到各种数据分析工具中进行进一步处理。用户可以根据研究需求选择full或small变体，并利用数据集中的111个特征进行钓鱼网站检测模型的训练与评估。此外，数据集的特征设计为钓鱼网站检测提供了丰富的信息源，用户可根据具体需求选择合适的特征组合进行分析与建模。

背景与挑战

背景概述

网络钓鱼攻击的日益猖獗促使了对钓鱼网站检测技术的深入研究。Phishing-Dataset数据集由G. Vrbančič、I. Jr. Fister和V. Podgorelec于2020年创建，旨在为钓鱼网站检测提供一个全面且结构化的数据资源。该数据集包含两个版本，分别包含88,647和58,645个实例，涵盖了111个特征，这些特征从URL、域名、文件和参数等多个维度提取，旨在捕捉钓鱼网站的典型特征。该数据集的发布不仅为网络安全领域的研究者提供了宝贵的资源，还推动了钓鱼检测技术的进一步发展。

当前挑战

Phishing-Dataset在构建过程中面临了多重挑战。首先，钓鱼网站的特征复杂多样，如何从海量的网络数据中提取有效且具有代表性的特征是一个关键问题。其次，数据集的平衡性也是一个挑战，尽管数据集中合法网站和钓鱼网站的实例数量接近，但确保各类样本的分布均衡仍需进一步优化。此外，随着网络技术的不断演进，钓鱼网站的特征也在不断变化，如何保持数据集的时效性和前瞻性是未来研究的重点。

常用场景

经典使用场景

Phishing-Dataset数据集在网络钓鱼网站检测领域具有广泛的应用价值。其经典使用场景包括构建和训练机器学习模型，以区分合法网站与钓鱼网站。通过分析URL中的各类特征，如特殊字符数量、域名长度、响应时间等，研究人员能够开发出高效的分类算法，从而提升网络钓鱼检测的准确性和实时性。

解决学术问题

该数据集解决了网络安全领域中识别和预防网络钓鱼攻击的关键学术问题。通过提供丰富的特征集和大规模的实例数据，它为研究人员提供了深入探索钓鱼网站特征的机会，推动了基于机器学习和数据挖掘的钓鱼检测技术的发展。其意义在于提升了网络安全防御的智能化水平，减少了用户因钓鱼攻击而遭受的损失。

实际应用

在实际应用中，Phishing-Dataset数据集被广泛用于开发和优化网络钓鱼检测系统。例如，网络安全公司可以利用该数据集训练模型，部署在防火墙或浏览器插件中，实时监控和拦截可疑的钓鱼网站。此外，金融机构和电子商务平台也可利用该数据集提升其安全防护能力，保护用户免受钓鱼攻击的威胁。

数据集最近研究