Phishing-Dataset|网络安全数据集|数据分析数据集

github2024-05-12 更新2024-05-31 收录

网络安全

数据分析

下载链接：

https://github.com/GregaVrbancic/Phishing-Dataset

下载链接

链接失效反馈

资源简介：

本仓库提供了两个版本的钓鱼网站数据集。完整版数据集包含88,647个实例，其中58,000个是合法网站实例，30,647个是钓鱼网站实例，共有111个特征。小型版数据集包含58,645个实例，其中27,998个是合法网站实例，30,647个是钓鱼网站实例，同样有111个特征。

This repository provides two versions of phishing website datasets. The complete dataset comprises 88,647 instances, including 58,000 legitimate website instances and 30,647 phishing website instances, featuring a total of 111 attributes. The smaller version of the dataset contains 58,645 instances, with 27,998 legitimate website instances and 30,647 phishing website instances, also encompassing 111 attributes.

创建时间：

2019-05-23

原始信息汇总

数据集概述

数据集名称

Datasets for Phishing Websites Detection

数据集变体

dataset_full.csv
- 总实例数: 88,647
  - 合法网站实例数 (标签为0): 58,000
  - 钓鱼网站实例数 (标签为1): 30,647
- 总特征数: 111 (不含目标)
dataset_small.csv
- 总实例数: 58,645
  - 合法网站实例数 (标签为0): 27,998
  - 钓鱼网站实例数 (标签为1): 30,647
- 总特征数: 111 (不含目标)

特征描述

URL相关特征
- 如URL中的字符计数（例如.、-、_、/、?、=、@、&、!、、~、,、+、*、#、$、%）
- 顶级域名长度
- URL长度
域名相关特征
- 域名字符计数（同上）
- 域名长度
- 域名是否为IP格式
- 域名是否包含“server”或“client”
目录相关特征
- 目录字符计数（同上）
- 目录长度
文件相关特征
- 文件字符计数（同上）
- 文件长度
参数相关特征
- 参数字符计数（同上）
- 参数长度
- 参数中顶级域名的存在
- 参数数量
其他特征
- 电子邮件在URL中的存在
- 搜索时间（响应）
- 域名是否有SPF记录
- AS号（ASN）
- 域名激活时间
- 域名到期时间
- 解析的IP数量
- 解析的名称服务器数量
- MX服务器数量
- 与主机名关联的TTL值
- 有效的TLS/SSL证书
- 重定向数量
- URL和域名在Google的索引状态
- URL是否被缩短
- 是否为钓鱼网站

引用信息

G. Vrbančič, I. Jr. Fister, V. Podgorelec. Datasets for Phishing Websites Detection. Data in Brief, Vol. 33, 2020, DOI: 10.1016/j.dib.2020.106438

AI搜集汇总

数据集介绍

构建方式

Phishing-Dataset的构建基于对大量网站URL的详细分析与特征提取。该数据集通过系统性地收集合法与钓鱼网站的实例，并对其URL结构、域名特征、文件与参数的组成等进行量化统计，从而生成111个特征。这些特征涵盖了URL中的符号数量、域名长度、TLD（顶级域名）信息、以及与域名相关的响应时间、证书状态等多维度信息。通过这种方式，数据集为钓鱼网站的检测提供了丰富的特征基础。

使用方法

Phishing-Dataset的使用方法灵活多样。用户可以通过访问专门的Web应用程序，对数据集进行交互式预览与定制化处理。数据集以CSV格式提供，便于直接导入到各种数据分析工具中进行进一步处理。用户可以根据研究需求选择full或small变体，并利用数据集中的111个特征进行钓鱼网站检测模型的训练与评估。此外，数据集的特征设计为钓鱼网站检测提供了丰富的信息源，用户可根据具体需求选择合适的特征组合进行分析与建模。

背景与挑战

背景概述

网络钓鱼攻击的日益猖獗促使了对钓鱼网站检测技术的深入研究。Phishing-Dataset数据集由G. Vrbančič、I. Jr. Fister和V. Podgorelec于2020年创建，旨在为钓鱼网站检测提供一个全面且结构化的数据资源。该数据集包含两个版本，分别包含88,647和58,645个实例，涵盖了111个特征，这些特征从URL、域名、文件和参数等多个维度提取，旨在捕捉钓鱼网站的典型特征。该数据集的发布不仅为网络安全领域的研究者提供了宝贵的资源，还推动了钓鱼检测技术的进一步发展。

当前挑战

Phishing-Dataset在构建过程中面临了多重挑战。首先，钓鱼网站的特征复杂多样，如何从海量的网络数据中提取有效且具有代表性的特征是一个关键问题。其次，数据集的平衡性也是一个挑战，尽管数据集中合法网站和钓鱼网站的实例数量接近，但确保各类样本的分布均衡仍需进一步优化。此外，随着网络技术的不断演进，钓鱼网站的特征也在不断变化，如何保持数据集的时效性和前瞻性是未来研究的重点。

常用场景

经典使用场景

Phishing-Dataset数据集在网络钓鱼网站检测领域具有广泛的应用价值。其经典使用场景包括构建和训练机器学习模型，以区分合法网站与钓鱼网站。通过分析URL中的各类特征，如特殊字符数量、域名长度、响应时间等，研究人员能够开发出高效的分类算法，从而提升网络钓鱼检测的准确性和实时性。

解决学术问题

该数据集解决了网络安全领域中识别和预防网络钓鱼攻击的关键学术问题。通过提供丰富的特征集和大规模的实例数据，它为研究人员提供了深入探索钓鱼网站特征的机会，推动了基于机器学习和数据挖掘的钓鱼检测技术的发展。其意义在于提升了网络安全防御的智能化水平，减少了用户因钓鱼攻击而遭受的损失。

实际应用

在实际应用中，Phishing-Dataset数据集被广泛用于开发和优化网络钓鱼检测系统。例如，网络安全公司可以利用该数据集训练模型，部署在防火墙或浏览器插件中，实时监控和拦截可疑的钓鱼网站。此外，金融机构和电子商务平台也可利用该数据集提升其安全防护能力，保护用户免受钓鱼攻击的威胁。

数据集最近研究

最新研究方向

在网络安全领域，钓鱼网站检测数据集的研究正朝着更精细化的特征提取和更高效的模型构建方向发展。随着网络攻击手段的不断演变，研究人员致力于通过深度学习和机器学习技术，挖掘URL和域名中的隐含特征，以提高检测的准确性和实时性。此外，结合多源数据融合和跨领域知识，如DNS解析记录、SSL证书信息等，进一步增强了模型的鲁棒性和泛化能力。这些研究不仅有助于提升网络安全防护水平，还为相关政策制定和技术应用提供了科学依据。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准，尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率（VHR，0.5m/像素）Google Earth (GE) 图像块对组成，大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化，尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里，我们关注与建筑相关的变化，包括建筑增长（从土壤/草地/硬化地面或在建建筑到新建筑区域的变化）和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签（1 表示变化，0 表示不变）进行注释。我们数据集中的每个样本都由一个注释器进行注释，然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录