CICDDoS2019|网络安全数据集|DDoS攻击数据集
收藏DDoS Defense: A Multiclass and Multidimensional Detection System with Diverse Machine Learning Models
项目概述
该项目旨在使用CICDDoS2019数据集构建一个系统,用于检测和分类**DDoS(分布式拒绝服务)**攻击。目标是开发一个多类分类模型,能够从正常网络流量中识别各种DDoS攻击。
数据集描述
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,包含代表多种DDoS攻击的网络流量数据以及良性(非攻击)流量。数据集包含多个属性,如数据包大小、源/目标IP和协议类型。目标变量包含以下不同的攻击标签:
- Syn: SYN洪水攻击
- Benign: 正常,非攻击流量
- Portmap: 基于Portmapper的DDoS攻击
- UDP: 通用UDP洪水攻击
- UDPLag: 基于UDP的DDoS攻击,带有延迟
- MSSQL: 特定于MSSQL的DDoS攻击
- NetBIOS: 与NetBIOS相关的DDoS攻击
- LDAP: 基于轻量级目录访问协议的攻击
数据处理概述
数据收集和预处理
-
收集数据路径:
- 使用文件遍历收集训练和测试数据集的路径。
- 确保仅使用名称匹配的数据集进行训练和测试。
-
数据处理:
- 列映射:确保训练和测试数据集的列名一致。
- 空值和重复值处理:检查并处理空值和重复值。
- 删除单一唯一值列:删除仅包含单一唯一值的列。
- 删除高度相关列:删除相关系数为0.8或更高的列。
探索性数据分析(EDA)
- 分类列分布:使用条形图和饼图进行频率和百分比分布分析。
- 流持续时间分布:分析DDoS和正常流量的流持续时间分布。
- 按协议和攻击标签的平均数据包长度:探索不同协议类型和攻击标签的平均数据包长度。
- 按攻击标签的标志分布:分析不同标志类型在攻击标签中的分布。
- 协议请求分布:分析来自不同协议的请求数量。
- 相关矩阵:使用热图可视化相关矩阵。
数据预处理和特征工程
- 训练-测试分割:将数据集分割为训练、验证和测试集。
- 特征编码:使用LabelEncoder将目标列编码为数值。
- 特征缩放:应用Min-Max Scaling对特征进行缩放。
模型训练和评估
- 模型选择:训练和评估多个模型,包括:
- 随机森林
- K近邻(KNN)
- Extra Trees分类器
- 多层感知器(MLP)分类器
- XGBoost
- 模型评估:使用准确率、精确率、召回率、F1分数和ROC AUC等指标评估模型。
结果可视化
- 模型比较:绘制每个模型的准确率分数和ROC曲线,以比较其性能。
关键观察
-
最佳整体模型:
- 随机森林:
- 准确率:0.992684
- 召回率:0.992684
- F1分数:0.992604
- ROC AUC:0.991172
- 随机森林:
-
最佳ROC AUC模型:
- MLP分类器:
- ROC AUC:0.995034
- MLP分类器:
-
性能权衡:
- XGBoost:
- 准确率:0.991615
- 精确率:0.991619
- F1分数:0.991595
- KNN:
- ROC AUC:0.983761
- XGBoost:
-
交叉验证分数:所有模型均表现出较强的泛化能力。
-
Extra Trees vs. 随机森林:随机森林在准确率、召回率和F1分数上略优于Extra Trees。
-
MLP分类器:尽管在准确率和F1分数上略低,但其高ROC AUC使其成为区分DDoS和非DDoS流量的强有力选择。
推荐
- 随机森林是DDoS预测的最佳选择。
- MLP分类器可用于优先考虑区分DDoS和非DDoS流量的场景。
模型导出
使用pickle保存随机森林模型,以便未来开发和部署。
结论
通过该项目,评估了多个机器学习模型在DDoS攻击检测中的效果,旨在识别最有效的模型用于分类各种类型的DDoS攻击。

FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
38-Cloud
该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。
github 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录