five

CICDDoS2019|网络安全数据集|DDoS攻击数据集

收藏
github2024-11-15 更新2024-11-16 收录
网络安全
DDoS攻击
下载链接:
https://github.com/rakibnsajib/DDoS-Defense-A-Multiclass-and-Multidimensional-Detection-System-with-Diverse-Machine-Learning-Models
下载链接
链接失效反馈
资源简介:
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,包含代表多种DDoS攻击和良性(非攻击)流量的网络流量数据。数据集的特征包括数据包大小、源/目标IP和协议类型。目标变量包括不同的攻击标签,如SYN洪水攻击、正常非攻击流量、基于端口映射的DDoS攻击、通用UDP洪水攻击、基于UDP的DDoS攻击、MSSQL特定DDoS攻击、NetBIOS相关DDoS攻击和基于轻量级目录访问协议的攻击。
创建时间:
2024-11-15
原始信息汇总

DDoS Defense: A Multiclass and Multidimensional Detection System with Diverse Machine Learning Models

项目概述

该项目旨在使用CICDDoS2019数据集构建一个系统,用于检测和分类**DDoS(分布式拒绝服务)**攻击。目标是开发一个多类分类模型,能够从正常网络流量中识别各种DDoS攻击。

数据集描述

CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,包含代表多种DDoS攻击的网络流量数据以及良性(非攻击)流量。数据集包含多个属性,如数据包大小、源/目标IP和协议类型。目标变量包含以下不同的攻击标签:

  • Syn: SYN洪水攻击
  • Benign: 正常,非攻击流量
  • Portmap: 基于Portmapper的DDoS攻击
  • UDP: 通用UDP洪水攻击
  • UDPLag: 基于UDP的DDoS攻击,带有延迟
  • MSSQL: 特定于MSSQL的DDoS攻击
  • NetBIOS: 与NetBIOS相关的DDoS攻击
  • LDAP: 基于轻量级目录访问协议的攻击

数据处理概述

数据收集和预处理

  1. 收集数据路径

    • 使用文件遍历收集训练和测试数据集的路径。
    • 确保仅使用名称匹配的数据集进行训练和测试。
  2. 数据处理

    • 列映射:确保训练和测试数据集的列名一致。
    • 空值和重复值处理:检查并处理空值和重复值。
    • 删除单一唯一值列:删除仅包含单一唯一值的列。
    • 删除高度相关列:删除相关系数为0.8或更高的列。

探索性数据分析(EDA)

  • 分类列分布:使用条形图和饼图进行频率和百分比分布分析。
  • 流持续时间分布:分析DDoS和正常流量的流持续时间分布。
  • 按协议和攻击标签的平均数据包长度:探索不同协议类型和攻击标签的平均数据包长度。
  • 按攻击标签的标志分布:分析不同标志类型在攻击标签中的分布。
  • 协议请求分布:分析来自不同协议的请求数量。
  • 相关矩阵:使用热图可视化相关矩阵。

数据预处理和特征工程

  • 训练-测试分割:将数据集分割为训练、验证和测试集。
  • 特征编码:使用LabelEncoder将目标列编码为数值。
  • 特征缩放:应用Min-Max Scaling对特征进行缩放。

模型训练和评估

  • 模型选择:训练和评估多个模型,包括:
    • 随机森林
    • K近邻(KNN)
    • Extra Trees分类器
    • 多层感知器(MLP)分类器
    • XGBoost
  • 模型评估:使用准确率、精确率、召回率、F1分数和ROC AUC等指标评估模型。

结果可视化

  • 模型比较:绘制每个模型的准确率分数和ROC曲线,以比较其性能。

关键观察

  1. 最佳整体模型

    • 随机森林
      • 准确率:0.992684
      • 召回率:0.992684
      • F1分数:0.992604
      • ROC AUC:0.991172
  2. 最佳ROC AUC模型

    • MLP分类器
      • ROC AUC:0.995034
  3. 性能权衡

    • XGBoost
      • 准确率:0.991615
      • 精确率:0.991619
      • F1分数:0.991595
    • KNN
      • ROC AUC:0.983761
  4. 交叉验证分数:所有模型均表现出较强的泛化能力。

  5. Extra Trees vs. 随机森林:随机森林在准确率、召回率和F1分数上略优于Extra Trees。

  6. MLP分类器:尽管在准确率和F1分数上略低,但其高ROC AUC使其成为区分DDoS和非DDoS流量的强有力选择。

推荐

  • 随机森林是DDoS预测的最佳选择。
  • MLP分类器可用于优先考虑区分DDoS和非DDoS流量的场景。

模型导出

使用pickle保存随机森林模型,以便未来开发和部署。

结论

通过该项目,评估了多个机器学习模型在DDoS攻击检测中的效果,旨在识别最有效的模型用于分类各种类型的DDoS攻击。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,其构建过程包括数据收集与预处理两个主要阶段。首先,通过文件遍历收集训练和测试数据的路径,确保数据集名称匹配。随后,进行列名映射,以确保训练和测试数据集的列名一致。此外,数据集中未发现空值,但存在重复值,这些重复值被移除以保证数据质量。最后,移除仅包含单一唯一值的列和高度相关的列,以减少多重共线性并提升模型性能。
使用方法
使用CICDDoS2019数据集时,首先需进行数据预处理,包括列名映射、空值和重复值处理,以及特征选择。随后,进行探索性数据分析(EDA)以理解数据分布和特征关系。接着,将数据集划分为训练、验证和测试集,并进行特征编码和缩放。最后,选择合适的机器学习模型进行训练和评估,如随机森林、K近邻、多层感知器等,并通过交叉验证和ROC曲线分析模型性能。
背景与挑战
背景概述
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,专注于分布式拒绝服务(DDoS)攻击的检测与分类。该数据集包含了多种类型的DDoS攻击及其对应的正常网络流量数据,涵盖了诸如SYN洪水攻击、UDP泛洪攻击等多种攻击类型。其核心研究问题在于开发一种多类分类模型,能够从复杂的网络流量中准确识别出各种DDoS攻击。CICDDoS2019的创建不仅为网络安全领域提供了丰富的数据资源,还推动了机器学习在DDoS防御系统中的应用研究,对提升网络防御能力具有重要意义。
当前挑战
CICDDoS2019数据集在构建和应用过程中面临多项挑战。首先,数据集包含了多种攻击类型和复杂的网络流量特征,这使得DDoS攻击的检测成为一个多类分类问题,增加了模型的复杂性和训练难度。其次,数据预处理阶段需要处理大量的冗余和高度相关的特征,以确保模型的高效性和准确性。此外,不同攻击类型之间的细微差别和正常流量的多样性,使得模型在区分攻击与非攻击流量时面临显著挑战。最后,尽管数据集提供了丰富的信息,但如何有效地利用这些信息以提升模型的泛化能力和实际应用效果,仍是当前研究的重要课题。
常用场景
经典使用场景
在网络安全领域,CICDDoS2019数据集的经典使用场景主要集中在分布式拒绝服务(DDoS)攻击的检测与分类。该数据集通过包含多种攻击类型和正常网络流量的特征,为研究人员提供了一个丰富的实验平台。通过训练多类分类模型,如随机森林、K-近邻、XGBoost等,研究者能够有效识别和区分不同类型的DDoS攻击,从而提升网络防御系统的准确性和鲁棒性。
解决学术问题
CICDDoS2019数据集解决了网络安全领域中DDoS攻击检测的复杂性问题。传统的DDoS检测方法往往依赖于单一特征或简单的分类器,难以应对多变且复杂的攻击模式。该数据集通过提供多维度的网络流量特征和多类攻击标签,推动了多类分类和多模型融合的研究,显著提升了DDoS攻击检测的精度和泛化能力,对网络安全研究具有重要意义。
实际应用
在实际应用中,CICDDoS2019数据集为网络安全公司和研究机构提供了一个强大的工具,用于开发和验证DDoS防御系统。通过使用该数据集训练的模型,企业可以部署更智能的入侵检测系统(IDS),实时监控网络流量,及时识别并响应潜在的DDoS攻击。这不仅提高了网络的安全性,还减少了因攻击导致的业务中断和经济损失。
数据集最近研究
最新研究方向
在网络安全领域,CICDDoS2019数据集的最新研究方向主要集中在多类别和多维度的DDoS攻击检测系统构建上。研究者们致力于开发能够从正常网络流量中识别多种DDoS攻击的分类模型。通过利用数据集中的多种攻击类型及其独特的网络流量特征,研究人员正在探索如何通过机器学习模型,如随机森林、K-近邻、极端随机树、多层感知器和XGBoost,来提升DDoS攻击检测的准确性和效率。这些研究不仅有助于提升网络安全防御系统的性能,还为应对日益复杂的网络攻击提供了新的技术手段和理论基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

38-Cloud

该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。

github 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录