CICDDoS2019|网络安全数据集|DDoS攻击数据集
收藏DDoS Defense: A Multiclass and Multidimensional Detection System with Diverse Machine Learning Models
项目概述
该项目旨在使用CICDDoS2019数据集构建一个系统,用于检测和分类**DDoS(分布式拒绝服务)**攻击。目标是开发一个多类分类模型,能够从正常网络流量中识别各种DDoS攻击。
数据集描述
CICDDoS2019数据集由加拿大网络安全研究所(CIC)提供,包含代表多种DDoS攻击的网络流量数据以及良性(非攻击)流量。数据集包含多个属性,如数据包大小、源/目标IP和协议类型。目标变量包含以下不同的攻击标签:
- Syn: SYN洪水攻击
- Benign: 正常,非攻击流量
- Portmap: 基于Portmapper的DDoS攻击
- UDP: 通用UDP洪水攻击
- UDPLag: 基于UDP的DDoS攻击,带有延迟
- MSSQL: 特定于MSSQL的DDoS攻击
- NetBIOS: 与NetBIOS相关的DDoS攻击
- LDAP: 基于轻量级目录访问协议的攻击
数据处理概述
数据收集和预处理
-
收集数据路径:
- 使用文件遍历收集训练和测试数据集的路径。
- 确保仅使用名称匹配的数据集进行训练和测试。
-
数据处理:
- 列映射:确保训练和测试数据集的列名一致。
- 空值和重复值处理:检查并处理空值和重复值。
- 删除单一唯一值列:删除仅包含单一唯一值的列。
- 删除高度相关列:删除相关系数为0.8或更高的列。
探索性数据分析(EDA)
- 分类列分布:使用条形图和饼图进行频率和百分比分布分析。
- 流持续时间分布:分析DDoS和正常流量的流持续时间分布。
- 按协议和攻击标签的平均数据包长度:探索不同协议类型和攻击标签的平均数据包长度。
- 按攻击标签的标志分布:分析不同标志类型在攻击标签中的分布。
- 协议请求分布:分析来自不同协议的请求数量。
- 相关矩阵:使用热图可视化相关矩阵。
数据预处理和特征工程
- 训练-测试分割:将数据集分割为训练、验证和测试集。
- 特征编码:使用LabelEncoder将目标列编码为数值。
- 特征缩放:应用Min-Max Scaling对特征进行缩放。
模型训练和评估
- 模型选择:训练和评估多个模型,包括:
- 随机森林
- K近邻(KNN)
- Extra Trees分类器
- 多层感知器(MLP)分类器
- XGBoost
- 模型评估:使用准确率、精确率、召回率、F1分数和ROC AUC等指标评估模型。
结果可视化
- 模型比较:绘制每个模型的准确率分数和ROC曲线,以比较其性能。
关键观察
-
最佳整体模型:
- 随机森林:
- 准确率:0.992684
- 召回率:0.992684
- F1分数:0.992604
- ROC AUC:0.991172
- 随机森林:
-
最佳ROC AUC模型:
- MLP分类器:
- ROC AUC:0.995034
- MLP分类器:
-
性能权衡:
- XGBoost:
- 准确率:0.991615
- 精确率:0.991619
- F1分数:0.991595
- KNN:
- ROC AUC:0.983761
- XGBoost:
-
交叉验证分数:所有模型均表现出较强的泛化能力。
-
Extra Trees vs. 随机森林:随机森林在准确率、召回率和F1分数上略优于Extra Trees。
-
MLP分类器:尽管在准确率和F1分数上略低,但其高ROC AUC使其成为区分DDoS和非DDoS流量的强有力选择。
推荐
- 随机森林是DDoS预测的最佳选择。
- MLP分类器可用于优先考虑区分DDoS和非DDoS流量的场景。
模型导出
使用pickle保存随机森林模型,以便未来开发和部署。
结论
通过该项目,评估了多个机器学习模型在DDoS攻击检测中的效果,旨在识别最有效的模型用于分类各种类型的DDoS攻击。

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
WET (Channel 1) 287 - 00047.tif
:unav
DataCite Commons 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录
TongueDx Dataset
TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集,由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像,涵盖了多种环境条件下的舌象,图像通过智能手机和笔记本电脑摄像头采集,具有较高的多样性和代表性。数据集不仅包含舌象图像,还提供了详细的舌面属性标注,如舌色、舌苔厚度等,并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注,旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断,旨在通过自动化技术提高舌诊的准确性和可靠性。
arXiv 收录
