five

pirocheto/phishing-url|网络安全数据集|钓鱼检测数据集

收藏
hugging_face2024-02-25 更新2024-03-04 收录
网络安全
钓鱼检测
下载链接:
https://hf-mirror.com/datasets/pirocheto/phishing-url
下载链接
链接失效反馈
资源简介:
该数据集包含11430个URL,每个URL有87个提取的特征。数据集旨在作为基于机器学习的钓鱼检测系统的基准。数据集是平衡的,包含50%的钓鱼URL和50%的合法URL。特征来自三个不同的类别:56个从URL的结构和语法中提取,24个从其对应页面的内容中提取,7个通过查询外部服务提取。数据集被随机划分为训练集和测试集,比例为三分之二用于训练,三分之一用于测试。
提供机构:
pirocheto
原始信息汇总

数据集概述

基本信息

  • 数据集名称: TabNetone
  • 数据集大小: n<1K
  • 语言: 英语 (en)
  • 任务类别:
    • 文本分类
    • 表格分类
    • 令牌分类
    • 文本到文本生成
  • 标签:
    • 网络钓鱼
    • URL
    • 安全
  • 许可证: CC-BY-4.0

数据集内容

  • 包含的URL数量: 11430
  • 提取的特征数量: 87
  • 特征分类:
    • 结构和语法相关的URL特征: 56
    • 对应页面内容特征: 24
    • 通过查询外部服务提取的特征: 7
  • 数据集平衡性: 50% 网络钓鱼URL, 50% 合法URL
  • 训练与测试集划分: 训练集占2/3, 测试集占1/3

数据集使用

  • 目的: 作为机器学习基准用于网络钓鱼检测系统
  • 加载方式:
    • 使用 datasets
    • 使用 pandashuggingface_hub
    • 仅使用 pandas

引用信息

  • BibTeX格式:

    @article{Hannousse_2021, title={Towards benchmark datasets for machine learning based website phishing detection: An experimental study}, volume={104}, ISSN={0952-1976}, url={http://dx.doi.org/10.1016/j.engappai.2021.104347}, DOI={10.1016/j.engappai.2021.104347}, journal={Engineering Applications of Artificial Intelligence}, publisher={Elsevier BV}, author={Hannousse, Abdelhakim and Yahiouche, Salima}, year={2021}, month=sep, pages={104347} }

  • APA格式:

    Hannousse, A., & Yahiouche, S. (2021). Towards benchmark datasets for machine learning based website phishing detection: An experimental study. Engineering Applications of Artificial Intelligence, 104, 104347.

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建采用随机划分的方式,将11430个URL及其87个提取特征分为训练集与测试集,其中训练集占比三分之二,测试集占比三分之一,确保了数据集在机器学习模型训练中的可用性与评估的准确性。
特点
数据集具备均衡的类别分布,包含50%的钓鱼URL与50%的合法URL,特征分为三类:56个来自URL的结构和语法,24个来自相应页面的内容,7个通过外部服务查询获得,为钓鱼检测提供了全面的特征支持。
使用方法
数据集可通过HuggingFace的datasets库、pandas结合huggingface_hub库或仅使用pandas库进行加载,用户可根据自身需求选择合适的方法,以便在研究中便捷地利用该数据集进行机器学习模型的训练与评估。
背景与挑战
背景概述
在网络安全领域,网络钓鱼攻击的检测与防范至关重要。pirocheto/phishing-url数据集在此背景下应运而生,由Abdelhakim Hannousse和Salima Yahiouche资助并共享,旨在为基于机器学习的钓鱼检测系统提供一个均衡的基准数据集。该数据集包含11430个URL,分为50%的钓鱼URL和50%的正常URL,并从URL的结构语法、对应页面内容以及外部服务查询中提取了87个特征。该数据集的创建,不仅为钓鱼检测研究提供了实验基础,而且对网络安全领域的学术研究和实践应用产生了重要影响。
当前挑战
在构建该数据集的过程中,研究人员面临了诸多挑战。首先,如何确保URL样本的平衡性,避免数据偏差,是数据集构建中的一个关键挑战。其次,从URL及对应页面中提取有效特征,尤其是区分钓鱼与正常URL的特征,也是一项技术上的挑战。此外,数据集的构建还需考虑如何有效地将数据分为训练集和测试集,以及如何在保证数据质量的同时,确保数据集的可用性和可访问性。
常用场景
经典使用场景
在网络安全领域,'pirocheto/phishing-url'数据集被广泛用作机器学习模型的训练基准,以实现对网络钓鱼URL的检测。该数据集包含11430个URL,并提取了87个特征,旨在通过机器学习技术准确区分钓鱼网站与合法网站。
衍生相关工作
基于该数据集,学术界和产业界已经衍生出一系列相关工作,包括改进的钓鱼检测算法、特征选择方法以及模型评估准则。这些工作不仅丰富了网络安全领域的理论研究,也为实际应用提供了更多的技术选择和解决方案。
数据集最近研究
最新研究方向
在网络安全领域,针对网络钓鱼攻击的检测技术不断演进。pirocheto/phishing-url数据集作为机器学习领域中 phishing 检测系统的基准,提供了11430个URL样本及87个提取特征,均衡地包含50%的钓鱼网站和50%的合法网站。该数据集整合了结构语法、页面内容以及外部服务查询等多维度特征,为研究者提供了丰富的数据资源。目前,利用该数据集的研究正聚焦于提升机器学习模型的检测精度和鲁棒性,以应对不断变化的网络钓鱼手段,对于增强网络安全具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录