pirocheto/phishing-url

Name: pirocheto/phishing-url
Creator: pirocheto
Published: 2024-02-25 13:53:18
License: 暂无描述

Hugging Face2024-02-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pirocheto/phishing-url

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含11430个URL，每个URL有87个提取的特征。数据集旨在作为基于机器学习的钓鱼检测系统的基准。数据集是平衡的，包含50%的钓鱼URL和50%的合法URL。特征来自三个不同的类别：56个从URL的结构和语法中提取，24个从其对应页面的内容中提取，7个通过查询外部服务提取。数据集被随机划分为训练集和测试集，比例为三分之二用于训练，三分之一用于测试。

This dataset contains 11430 URLs, each with 87 extracted features. It is designed as a benchmark for machine learning-based phishing detection systems. The dataset is balanced, consisting of 50% phishing URLs and 50% legitimate URLs. The features fall into three distinct categories: 56 features extracted from the structure and syntax of the URL, 24 features extracted from the content of its corresponding webpage, and 7 features obtained by querying external services. The dataset is randomly split into training and test sets, with a ratio of two-thirds for training and one-third for testing.

提供机构：

pirocheto

原始信息汇总

数据集概述

基本信息

数据集名称: TabNetone
数据集大小: n<1K
语言: 英语 (en)
任务类别:
- 文本分类
- 表格分类
- 令牌分类
- 文本到文本生成
标签:
- 网络钓鱼
- URL
- 安全
许可证: CC-BY-4.0

数据集内容

包含的URL数量: 11430
提取的特征数量: 87
特征分类:
- 结构和语法相关的URL特征: 56
- 对应页面内容特征: 24
- 通过查询外部服务提取的特征: 7
数据集平衡性: 50% 网络钓鱼URL, 50% 合法URL
训练与测试集划分: 训练集占2/3, 测试集占1/3

数据集使用

目的: 作为机器学习基准用于网络钓鱼检测系统
加载方式:
- 使用 datasets 库
- 使用 pandas 和 huggingface_hub
- 仅使用 pandas

引用信息

BibTeX格式:

@article{Hannousse_2021, title={Towards benchmark datasets for machine learning based website phishing detection: An experimental study}, volume={104}, ISSN={0952-1976}, url={http://dx.doi.org/10.1016/j.engappai.2021.104347}, DOI={10.1016/j.engappai.2021.104347}, journal={Engineering Applications of Artificial Intelligence}, publisher={Elsevier BV}, author={Hannousse, Abdelhakim and Yahiouche, Salima}, year={2021}, month=sep, pages={104347} }
APA格式:

Hannousse, A., & Yahiouche, S. (2021). Towards benchmark datasets for machine learning based website phishing detection: An experimental study. Engineering Applications of Artificial Intelligence, 104, 104347.

搜集汇总

数据集介绍

构建方式

该数据集的构建采用随机划分的方式，将11430个URL及其87个提取特征分为训练集与测试集，其中训练集占比三分之二，测试集占比三分之一，确保了数据集在机器学习模型训练中的可用性与评估的准确性。

特点

数据集具备均衡的类别分布，包含50%的钓鱼URL与50%的合法URL，特征分为三类：56个来自URL的结构和语法，24个来自相应页面的内容，7个通过外部服务查询获得，为钓鱼检测提供了全面的特征支持。

使用方法

数据集可通过HuggingFace的datasets库、pandas结合huggingface_hub库或仅使用pandas库进行加载，用户可根据自身需求选择合适的方法，以便在研究中便捷地利用该数据集进行机器学习模型的训练与评估。

背景与挑战

背景概述

在网络安全领域，网络钓鱼攻击的检测与防范至关重要。pirocheto/phishing-url数据集在此背景下应运而生，由Abdelhakim Hannousse和Salima Yahiouche资助并共享，旨在为基于机器学习的钓鱼检测系统提供一个均衡的基准数据集。该数据集包含11430个URL，分为50%的钓鱼URL和50%的正常URL，并从URL的结构语法、对应页面内容以及外部服务查询中提取了87个特征。该数据集的创建，不仅为钓鱼检测研究提供了实验基础，而且对网络安全领域的学术研究和实践应用产生了重要影响。

当前挑战

在构建该数据集的过程中，研究人员面临了诸多挑战。首先，如何确保URL样本的平衡性，避免数据偏差，是数据集构建中的一个关键挑战。其次，从URL及对应页面中提取有效特征，尤其是区分钓鱼与正常URL的特征，也是一项技术上的挑战。此外，数据集的构建还需考虑如何有效地将数据分为训练集和测试集，以及如何在保证数据质量的同时，确保数据集的可用性和可访问性。

常用场景

经典使用场景

在网络安全领域，'pirocheto/phishing-url'数据集被广泛用作机器学习模型的训练基准，以实现对网络钓鱼URL的检测。该数据集包含11430个URL，并提取了87个特征，旨在通过机器学习技术准确区分钓鱼网站与合法网站。

衍生相关工作

基于该数据集，学术界和产业界已经衍生出一系列相关工作，包括改进的钓鱼检测算法、特征选择方法以及模型评估准则。这些工作不仅丰富了网络安全领域的理论研究，也为实际应用提供了更多的技术选择和解决方案。

数据集最近研究