CICDDoS2019

github2024-11-15 更新2024-11-16 收录

下载链接：

https://github.com/rakibnsajib/DDoS-Defense-A-Multiclass-and-Multidimensional-Detection-System-with-Diverse-Machine-Learning-Models

下载链接

链接失效反馈

官方服务：

资源简介：

CICDDoS2019数据集由加拿大网络安全研究所（CIC）提供，包含代表多种DDoS攻击和良性（非攻击）流量的网络流量数据。数据集的特征包括数据包大小、源/目标IP和协议类型。目标变量包括不同的攻击标签，如SYN洪水攻击、正常非攻击流量、基于端口映射的DDoS攻击、通用UDP洪水攻击、基于UDP的DDoS攻击、MSSQL特定DDoS攻击、NetBIOS相关DDoS攻击和基于轻量级目录访问协议的攻击。

The CICDDoS2019 dataset is provided by the Canadian Institute for Cybersecurity (CIC), and it contains network traffic data representing multiple DDoS attacks and benign (non-attack) traffic. The features of the dataset include packet sizes, source/destination IP addresses and protocol types. The target variables include different attack labels, such as SYN flood attacks, normal non-attack traffic, portmap-based DDoS attacks, generic UDP flood attacks, UDP-based DDoS attacks, MSSQL-specific DDoS attacks, NetBIOS-related DDoS attacks, and attacks based on the Lightweight Directory Access Protocol (LDAP).

创建时间：

2024-11-15

原始信息汇总

DDoS Defense: A Multiclass and Multidimensional Detection System with Diverse Machine Learning Models

项目概述

该项目旨在使用CICDDoS2019数据集构建一个系统，用于检测和分类**DDoS（分布式拒绝服务）**攻击。目标是开发一个多类分类模型，能够从正常网络流量中识别各种DDoS攻击。

数据集描述

CICDDoS2019数据集由加拿大网络安全研究所（CIC）提供，包含代表多种DDoS攻击的网络流量数据以及良性（非攻击）流量。数据集包含多个属性，如数据包大小、源/目标IP和协议类型。目标变量包含以下不同的攻击标签：

Syn: SYN洪水攻击
Benign: 正常，非攻击流量
Portmap: 基于Portmapper的DDoS攻击
UDP: 通用UDP洪水攻击
UDPLag: 基于UDP的DDoS攻击，带有延迟
MSSQL: 特定于MSSQL的DDoS攻击
NetBIOS: 与NetBIOS相关的DDoS攻击
LDAP: 基于轻量级目录访问协议的攻击

数据处理概述

数据收集和预处理

收集数据路径：
- 使用文件遍历收集训练和测试数据集的路径。
- 确保仅使用名称匹配的数据集进行训练和测试。
数据处理：
- 列映射：确保训练和测试数据集的列名一致。
- 空值和重复值处理：检查并处理空值和重复值。
- 删除单一唯一值列：删除仅包含单一唯一值的列。
- 删除高度相关列：删除相关系数为0.8或更高的列。

探索性数据分析（EDA）

分类列分布：使用条形图和饼图进行频率和百分比分布分析。
流持续时间分布：分析DDoS和正常流量的流持续时间分布。
按协议和攻击标签的平均数据包长度：探索不同协议类型和攻击标签的平均数据包长度。
按攻击标签的标志分布：分析不同标志类型在攻击标签中的分布。
协议请求分布：分析来自不同协议的请求数量。
相关矩阵：使用热图可视化相关矩阵。

数据预处理和特征工程

训练-测试分割：将数据集分割为训练、验证和测试集。
特征编码：使用LabelEncoder将目标列编码为数值。
特征缩放：应用Min-Max Scaling对特征进行缩放。

模型训练和评估

模型选择：训练和评估多个模型，包括：
- 随机森林
- K近邻（KNN）
- Extra Trees分类器
- 多层感知器（MLP）分类器
- XGBoost
模型评估：使用准确率、精确率、召回率、F1分数和ROC AUC等指标评估模型。

结果可视化

模型比较：绘制每个模型的准确率分数和ROC曲线，以比较其性能。

关键观察

最佳整体模型：
- 随机森林：
  - 准确率：0.992684
  - 召回率：0.992684
  - F1分数：0.992604
  - ROC AUC：0.991172
最佳ROC AUC模型：
- MLP分类器：
  - ROC AUC：0.995034
性能权衡：
- XGBoost：
  - 准确率：0.991615
  - 精确率：0.991619
  - F1分数：0.991595
- KNN：
  - ROC AUC：0.983761
交叉验证分数：所有模型均表现出较强的泛化能力。
Extra Trees vs. 随机森林：随机森林在准确率、召回率和F1分数上略优于Extra Trees。
MLP分类器：尽管在准确率和F1分数上略低，但其高ROC AUC使其成为区分DDoS和非DDoS流量的强有力选择。

模型导出

使用pickle保存随机森林模型，以便未来开发和部署。

结论

通过该项目，评估了多个机器学习模型在DDoS攻击检测中的效果，旨在识别最有效的模型用于分类各种类型的DDoS攻击。

搜集汇总

数据集介绍

构建方式

CICDDoS2019数据集由加拿大网络安全研究所（CIC）提供，其构建过程包括数据收集与预处理两个主要阶段。首先，通过文件遍历收集训练和测试数据的路径，确保数据集名称匹配。随后，进行列名映射，以确保训练和测试数据集的列名一致。此外，数据集中未发现空值，但存在重复值，这些重复值被移除以保证数据质量。最后，移除仅包含单一唯一值的列和高度相关的列，以减少多重共线性并提升模型性能。

使用方法

使用CICDDoS2019数据集时，首先需进行数据预处理，包括列名映射、空值和重复值处理，以及特征选择。随后，进行探索性数据分析（EDA）以理解数据分布和特征关系。接着，将数据集划分为训练、验证和测试集，并进行特征编码和缩放。最后，选择合适的机器学习模型进行训练和评估，如随机森林、K近邻、多层感知器等，并通过交叉验证和ROC曲线分析模型性能。

背景与挑战

背景概述

CICDDoS2019数据集由加拿大网络安全研究所（CIC）提供，专注于分布式拒绝服务（DDoS）攻击的检测与分类。该数据集包含了多种类型的DDoS攻击及其对应的正常网络流量数据，涵盖了诸如SYN洪水攻击、UDP泛洪攻击等多种攻击类型。其核心研究问题在于开发一种多类分类模型，能够从复杂的网络流量中准确识别出各种DDoS攻击。CICDDoS2019的创建不仅为网络安全领域提供了丰富的数据资源，还推动了机器学习在DDoS防御系统中的应用研究，对提升网络防御能力具有重要意义。

当前挑战

CICDDoS2019数据集在构建和应用过程中面临多项挑战。首先，数据集包含了多种攻击类型和复杂的网络流量特征，这使得DDoS攻击的检测成为一个多类分类问题，增加了模型的复杂性和训练难度。其次，数据预处理阶段需要处理大量的冗余和高度相关的特征，以确保模型的高效性和准确性。此外，不同攻击类型之间的细微差别和正常流量的多样性，使得模型在区分攻击与非攻击流量时面临显著挑战。最后，尽管数据集提供了丰富的信息，但如何有效地利用这些信息以提升模型的泛化能力和实际应用效果，仍是当前研究的重要课题。

常用场景

经典使用场景

在网络安全领域，CICDDoS2019数据集的经典使用场景主要集中在分布式拒绝服务（DDoS）攻击的检测与分类。该数据集通过包含多种攻击类型和正常网络流量的特征，为研究人员提供了一个丰富的实验平台。通过训练多类分类模型，如随机森林、K-近邻、XGBoost等，研究者能够有效识别和区分不同类型的DDoS攻击，从而提升网络防御系统的准确性和鲁棒性。

解决学术问题

CICDDoS2019数据集解决了网络安全领域中DDoS攻击检测的复杂性问题。传统的DDoS检测方法往往依赖于单一特征或简单的分类器，难以应对多变且复杂的攻击模式。该数据集通过提供多维度的网络流量特征和多类攻击标签，推动了多类分类和多模型融合的研究，显著提升了DDoS攻击检测的精度和泛化能力，对网络安全研究具有重要意义。

实际应用

在实际应用中，CICDDoS2019数据集为网络安全公司和研究机构提供了一个强大的工具，用于开发和验证DDoS防御系统。通过使用该数据集训练的模型，企业可以部署更智能的入侵检测系统（IDS），实时监控网络流量，及时识别并响应潜在的DDoS攻击。这不仅提高了网络的安全性，还减少了因攻击导致的业务中断和经济损失。

数据集最近研究