CICDDoS2019
收藏github2024-11-15 更新2024-11-16 收录
下载链接:
https://github.com/rakibnsajib/DDoS-Defense-A-Multiclass-and-Multidimensional-Detection-System-with-Diverse-Machine-Learning-Models
下载链接
链接失效反馈官方服务:
资源简介:
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,包含代表多种DDoS攻击和良性(非攻击)流量的网络流量数据。数据集的特征包括数据包大小、源/目标IP和协议类型。目标变量包括不同的攻击标签,如SYN洪水攻击、正常非攻击流量、基于端口映射的DDoS攻击、通用UDP洪水攻击、基于UDP的DDoS攻击、MSSQL特定DDoS攻击、NetBIOS相关DDoS攻击和基于轻量级目录访问协议的攻击。
The CICDDoS2019 dataset is provided by the Canadian Institute for Cybersecurity (CIC), and it contains network traffic data representing multiple DDoS attacks and benign (non-attack) traffic. The features of the dataset include packet sizes, source/destination IP addresses and protocol types. The target variables include different attack labels, such as SYN flood attacks, normal non-attack traffic, portmap-based DDoS attacks, generic UDP flood attacks, UDP-based DDoS attacks, MSSQL-specific DDoS attacks, NetBIOS-related DDoS attacks, and attacks based on the Lightweight Directory Access Protocol (LDAP).
创建时间:
2024-11-15
原始信息汇总
DDoS Defense: A Multiclass and Multidimensional Detection System with Diverse Machine Learning Models
项目概述
该项目旨在使用CICDDoS2019数据集构建一个系统,用于检测和分类**DDoS(分布式拒绝服务)**攻击。目标是开发一个多类分类模型,能够从正常网络流量中识别各种DDoS攻击。
数据集描述
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,包含代表多种DDoS攻击的网络流量数据以及良性(非攻击)流量。数据集包含多个属性,如数据包大小、源/目标IP和协议类型。目标变量包含以下不同的攻击标签:
- Syn: SYN洪水攻击
- Benign: 正常,非攻击流量
- Portmap: 基于Portmapper的DDoS攻击
- UDP: 通用UDP洪水攻击
- UDPLag: 基于UDP的DDoS攻击,带有延迟
- MSSQL: 特定于MSSQL的DDoS攻击
- NetBIOS: 与NetBIOS相关的DDoS攻击
- LDAP: 基于轻量级目录访问协议的攻击
数据处理概述
数据收集和预处理
-
收集数据路径:
- 使用文件遍历收集训练和测试数据集的路径。
- 确保仅使用名称匹配的数据集进行训练和测试。
-
数据处理:
- 列映射:确保训练和测试数据集的列名一致。
- 空值和重复值处理:检查并处理空值和重复值。
- 删除单一唯一值列:删除仅包含单一唯一值的列。
- 删除高度相关列:删除相关系数为0.8或更高的列。
探索性数据分析(EDA)
- 分类列分布:使用条形图和饼图进行频率和百分比分布分析。
- 流持续时间分布:分析DDoS和正常流量的流持续时间分布。
- 按协议和攻击标签的平均数据包长度:探索不同协议类型和攻击标签的平均数据包长度。
- 按攻击标签的标志分布:分析不同标志类型在攻击标签中的分布。
- 协议请求分布:分析来自不同协议的请求数量。
- 相关矩阵:使用热图可视化相关矩阵。
数据预处理和特征工程
- 训练-测试分割:将数据集分割为训练、验证和测试集。
- 特征编码:使用LabelEncoder将目标列编码为数值。
- 特征缩放:应用Min-Max Scaling对特征进行缩放。
模型训练和评估
- 模型选择:训练和评估多个模型,包括:
- 随机森林
- K近邻(KNN)
- Extra Trees分类器
- 多层感知器(MLP)分类器
- XGBoost
- 模型评估:使用准确率、精确率、召回率、F1分数和ROC AUC等指标评估模型。
结果可视化
- 模型比较:绘制每个模型的准确率分数和ROC曲线,以比较其性能。
关键观察
-
最佳整体模型:
- 随机森林:
- 准确率:0.992684
- 召回率:0.992684
- F1分数:0.992604
- ROC AUC:0.991172
- 随机森林:
-
最佳ROC AUC模型:
- MLP分类器:
- ROC AUC:0.995034
- MLP分类器:
-
性能权衡:
- XGBoost:
- 准确率:0.991615
- 精确率:0.991619
- F1分数:0.991595
- KNN:
- ROC AUC:0.983761
- XGBoost:
-
交叉验证分数:所有模型均表现出较强的泛化能力。
-
Extra Trees vs. 随机森林:随机森林在准确率、召回率和F1分数上略优于Extra Trees。
-
MLP分类器:尽管在准确率和F1分数上略低,但其高ROC AUC使其成为区分DDoS和非DDoS流量的强有力选择。
推荐
- 随机森林是DDoS预测的最佳选择。
- MLP分类器可用于优先考虑区分DDoS和非DDoS流量的场景。
模型导出
使用pickle保存随机森林模型,以便未来开发和部署。
结论
通过该项目,评估了多个机器学习模型在DDoS攻击检测中的效果,旨在识别最有效的模型用于分类各种类型的DDoS攻击。
搜集汇总
数据集介绍

构建方式
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,其构建过程包括数据收集与预处理两个主要阶段。首先,通过文件遍历收集训练和测试数据的路径,确保数据集名称匹配。随后,进行列名映射,以确保训练和测试数据集的列名一致。此外,数据集中未发现空值,但存在重复值,这些重复值被移除以保证数据质量。最后,移除仅包含单一唯一值的列和高度相关的列,以减少多重共线性并提升模型性能。
使用方法
使用CICDDoS2019数据集时,首先需进行数据预处理,包括列名映射、空值和重复值处理,以及特征选择。随后,进行探索性数据分析(EDA)以理解数据分布和特征关系。接着,将数据集划分为训练、验证和测试集,并进行特征编码和缩放。最后,选择合适的机器学习模型进行训练和评估,如随机森林、K近邻、多层感知器等,并通过交叉验证和ROC曲线分析模型性能。
背景与挑战
背景概述
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,专注于分布式拒绝服务(DDoS)攻击的检测与分类。该数据集包含了多种类型的DDoS攻击及其对应的正常网络流量数据,涵盖了诸如SYN洪水攻击、UDP泛洪攻击等多种攻击类型。其核心研究问题在于开发一种多类分类模型,能够从复杂的网络流量中准确识别出各种DDoS攻击。CICDDoS2019的创建不仅为网络安全领域提供了丰富的数据资源,还推动了机器学习在DDoS防御系统中的应用研究,对提升网络防御能力具有重要意义。
当前挑战
CICDDoS2019数据集在构建和应用过程中面临多项挑战。首先,数据集包含了多种攻击类型和复杂的网络流量特征,这使得DDoS攻击的检测成为一个多类分类问题,增加了模型的复杂性和训练难度。其次,数据预处理阶段需要处理大量的冗余和高度相关的特征,以确保模型的高效性和准确性。此外,不同攻击类型之间的细微差别和正常流量的多样性,使得模型在区分攻击与非攻击流量时面临显著挑战。最后,尽管数据集提供了丰富的信息,但如何有效地利用这些信息以提升模型的泛化能力和实际应用效果,仍是当前研究的重要课题。
常用场景
经典使用场景
在网络安全领域,CICDDoS2019数据集的经典使用场景主要集中在分布式拒绝服务(DDoS)攻击的检测与分类。该数据集通过包含多种攻击类型和正常网络流量的特征,为研究人员提供了一个丰富的实验平台。通过训练多类分类模型,如随机森林、K-近邻、XGBoost等,研究者能够有效识别和区分不同类型的DDoS攻击,从而提升网络防御系统的准确性和鲁棒性。
解决学术问题
CICDDoS2019数据集解决了网络安全领域中DDoS攻击检测的复杂性问题。传统的DDoS检测方法往往依赖于单一特征或简单的分类器,难以应对多变且复杂的攻击模式。该数据集通过提供多维度的网络流量特征和多类攻击标签,推动了多类分类和多模型融合的研究,显著提升了DDoS攻击检测的精度和泛化能力,对网络安全研究具有重要意义。
实际应用
在实际应用中,CICDDoS2019数据集为网络安全公司和研究机构提供了一个强大的工具,用于开发和验证DDoS防御系统。通过使用该数据集训练的模型,企业可以部署更智能的入侵检测系统(IDS),实时监控网络流量,及时识别并响应潜在的DDoS攻击。这不仅提高了网络的安全性,还减少了因攻击导致的业务中断和经济损失。
数据集最近研究
最新研究方向
在网络安全领域,CICDDoS2019数据集的最新研究方向主要集中在多类别和多维度的DDoS攻击检测系统构建上。研究者们致力于开发能够从正常网络流量中识别多种DDoS攻击的分类模型。通过利用数据集中的多种攻击类型及其独特的网络流量特征,研究人员正在探索如何通过机器学习模型,如随机森林、K-近邻、极端随机树、多层感知器和XGBoost,来提升DDoS攻击检测的准确性和效率。这些研究不仅有助于提升网络安全防御系统的性能,还为应对日益复杂的网络攻击提供了新的技术手段和理论基础。
以上内容由遇见数据集搜集并总结生成



