pirocheto/phishing-url
收藏Hugging Face2024-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pirocheto/phishing-url
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含11430个URL,每个URL有87个提取的特征。数据集旨在作为基于机器学习的钓鱼检测系统的基准。数据集是平衡的,包含50%的钓鱼URL和50%的合法URL。特征来自三个不同的类别:56个从URL的结构和语法中提取,24个从其对应页面的内容中提取,7个通过查询外部服务提取。数据集被随机划分为训练集和测试集,比例为三分之二用于训练,三分之一用于测试。
This dataset contains 11430 URLs, each with 87 extracted features. It is designed as a benchmark for machine learning-based phishing detection systems. The dataset is balanced, consisting of 50% phishing URLs and 50% legitimate URLs. The features fall into three distinct categories: 56 features extracted from the structure and syntax of the URL, 24 features extracted from the content of its corresponding webpage, and 7 features obtained by querying external services. The dataset is randomly split into training and test sets, with a ratio of two-thirds for training and one-third for testing.
提供机构:
pirocheto
原始信息汇总
数据集概述
基本信息
- 数据集名称: TabNetone
- 数据集大小: n<1K
- 语言: 英语 (en)
- 任务类别:
- 文本分类
- 表格分类
- 令牌分类
- 文本到文本生成
- 标签:
- 网络钓鱼
- URL
- 安全
- 许可证: CC-BY-4.0
数据集内容
- 包含的URL数量: 11430
- 提取的特征数量: 87
- 特征分类:
- 结构和语法相关的URL特征: 56
- 对应页面内容特征: 24
- 通过查询外部服务提取的特征: 7
- 数据集平衡性: 50% 网络钓鱼URL, 50% 合法URL
- 训练与测试集划分: 训练集占2/3, 测试集占1/3
数据集使用
- 目的: 作为机器学习基准用于网络钓鱼检测系统
- 加载方式:
- 使用
datasets库 - 使用
pandas和huggingface_hub - 仅使用
pandas
- 使用
引用信息
-
BibTeX格式:
@article{Hannousse_2021, title={Towards benchmark datasets for machine learning based website phishing detection: An experimental study}, volume={104}, ISSN={0952-1976}, url={http://dx.doi.org/10.1016/j.engappai.2021.104347}, DOI={10.1016/j.engappai.2021.104347}, journal={Engineering Applications of Artificial Intelligence}, publisher={Elsevier BV}, author={Hannousse, Abdelhakim and Yahiouche, Salima}, year={2021}, month=sep, pages={104347} }
-
APA格式:
Hannousse, A., & Yahiouche, S. (2021). Towards benchmark datasets for machine learning based website phishing detection: An experimental study. Engineering Applications of Artificial Intelligence, 104, 104347.
搜集汇总
数据集介绍

构建方式
该数据集的构建采用随机划分的方式,将11430个URL及其87个提取特征分为训练集与测试集,其中训练集占比三分之二,测试集占比三分之一,确保了数据集在机器学习模型训练中的可用性与评估的准确性。
特点
数据集具备均衡的类别分布,包含50%的钓鱼URL与50%的合法URL,特征分为三类:56个来自URL的结构和语法,24个来自相应页面的内容,7个通过外部服务查询获得,为钓鱼检测提供了全面的特征支持。
使用方法
数据集可通过HuggingFace的datasets库、pandas结合huggingface_hub库或仅使用pandas库进行加载,用户可根据自身需求选择合适的方法,以便在研究中便捷地利用该数据集进行机器学习模型的训练与评估。
背景与挑战
背景概述
在网络安全领域,网络钓鱼攻击的检测与防范至关重要。pirocheto/phishing-url数据集在此背景下应运而生,由Abdelhakim Hannousse和Salima Yahiouche资助并共享,旨在为基于机器学习的钓鱼检测系统提供一个均衡的基准数据集。该数据集包含11430个URL,分为50%的钓鱼URL和50%的正常URL,并从URL的结构语法、对应页面内容以及外部服务查询中提取了87个特征。该数据集的创建,不仅为钓鱼检测研究提供了实验基础,而且对网络安全领域的学术研究和实践应用产生了重要影响。
当前挑战
在构建该数据集的过程中,研究人员面临了诸多挑战。首先,如何确保URL样本的平衡性,避免数据偏差,是数据集构建中的一个关键挑战。其次,从URL及对应页面中提取有效特征,尤其是区分钓鱼与正常URL的特征,也是一项技术上的挑战。此外,数据集的构建还需考虑如何有效地将数据分为训练集和测试集,以及如何在保证数据质量的同时,确保数据集的可用性和可访问性。
常用场景
经典使用场景
在网络安全领域,'pirocheto/phishing-url'数据集被广泛用作机器学习模型的训练基准,以实现对网络钓鱼URL的检测。该数据集包含11430个URL,并提取了87个特征,旨在通过机器学习技术准确区分钓鱼网站与合法网站。
衍生相关工作
基于该数据集,学术界和产业界已经衍生出一系列相关工作,包括改进的钓鱼检测算法、特征选择方法以及模型评估准则。这些工作不仅丰富了网络安全领域的理论研究,也为实际应用提供了更多的技术选择和解决方案。
数据集最近研究
最新研究方向
在网络安全领域,针对网络钓鱼攻击的检测技术不断演进。pirocheto/phishing-url数据集作为机器学习领域中 phishing 检测系统的基准,提供了11430个URL样本及87个提取特征,均衡地包含50%的钓鱼网站和50%的合法网站。该数据集整合了结构语法、页面内容以及外部服务查询等多维度特征,为研究者提供了丰富的数据资源。目前,利用该数据集的研究正聚焦于提升机器学习模型的检测精度和鲁棒性,以应对不断变化的网络钓鱼手段,对于增强网络安全具有重要意义。
以上内容由遇见数据集搜集并总结生成



