CIC-DDoS2019

github2024-11-26 更新2024-12-01 收录

下载链接：

https://github.com/saghal/CIC-DDoS2019-ML-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

CIC-DDoS2019数据集包含标记的网络流量数据，包括正常流量和DDoS攻击实例，适用于监督学习。该数据集特别包括`Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv`文件，可以从Kaggle和加拿大网络安全研究所获取。

The CIC-DDoS2019 dataset consists of labeled network traffic data, covering both normal traffic and DDoS attack instances, and is applicable for supervised learning tasks. It specifically includes the file `Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv`, and is accessible via Kaggle and the Canadian Institute for Cybersecurity.

创建时间：

2024-11-26

原始信息汇总

CIC-DDoS2019 数据集概述

数据集信息

数据集名称: CIC-DDoS2019
文件名称: Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv
数据类型: 网络流量数据，包含正常流量和DDoS攻击实例
数据来源:
- Kaggle: Kaggle链接
- 原始来源: 加拿大网络安全研究所

数据集处理

探索性数据分析 (EDA)

数据概览: 显示数据集形状、列名和数据类型
缺失值处理: 识别并处理缺失值
无效数值处理: 替换无效数值（如无穷大）
可视化:
- 缺失值柱状图
- 数值特征分布直方图
- 数值特征箱线图（检测并可视化异常值）
- 目标变量分布饼图

数据预处理

目标编码: 将目标列 (Label) 转换为数值
分类编码: 对所有分类特征进行标签编码
特征移除: 删除不必要的列（如 Timestamp）
缺失值和无效值处理: 使用列均值填充缺失值，替换无限值
数据标准化: 使用 StandardScaler 标准化特征
数据分割: 按 80:20 比例分割训练集和测试集

特征工程

特征重要性: 使用 SelectKBest 和 ANOVA F-value 选择前10个特征
异常值检测: 通过箱线图识别异常值

模型与结果

机器学习模型

支持向量机 (SVM):
- 超参数调优: C (正则化) 和核类型 (linear, rbf)
- 性能: 高精度、召回率和F1分数
随机森林分类器:
- 超参数调优: n_estimators (树数量) 和 max_depth (树深度)
- 性能: 高准确率，平衡的分类报告和F1分数
XGBoost分类器:
- 超参数调优: learning_rate 和 n_estimators
- 性能: 高精度、召回率和整体准确率

深度学习模型

架构:
- 输入层: 64个神经元
- 隐藏层: 两层ReLU激活，批量归一化，30% dropout
- 输出层: Softmax激活
优化: Adam优化器，学习率调整，早停和学习率衰减
性能: 训练/验证准确率和损失曲线，混淆矩阵和分类报告

结果与发现

机器学习模型: SVM、随机森林和XGBoost在DDoS检测中表现优异
深度学习模型: 竞争性准确率和召回率
EDA洞察: 类分布不平衡，数值特征中的异常值
特征工程: 重要特征显著提升分类准确率

搜集汇总

数据集介绍

构建方式

CIC-DDoS2019数据集由加拿大网络安全研究所（Canadian Institute for Cybersecurity）构建，旨在提供一个用于分布式拒绝服务（DDoS）攻击检测的监督学习数据集。该数据集包含标记的网络流量数据，涵盖正常流量和DDoS攻击实例。通过从原始网络流量数据中提取特征，并进行详细的预处理，包括处理缺失值、无效数值替换和数据标准化，确保数据集的质量和适用性。

特点

CIC-DDoS2019数据集的一个显著特点是其丰富的特征集和详细的标签信息，这使得它非常适合用于DDoS攻击检测的机器学习和深度学习模型训练。此外，数据集的构建过程中采用了严格的数据清洗和预处理步骤，确保了数据的高质量和一致性。数据集还包含了多种类型的攻击流量，提供了多样化的训练样本，有助于提升模型的泛化能力。

使用方法

使用CIC-DDoS2019数据集进行DDoS攻击检测时，首先需要克隆包含数据集和相关代码的GitHub仓库。随后，创建并激活虚拟环境，安装所需的Python库。接着，可以通过运行Jupyter Notebook或直接执行Python脚本来进行数据分析、特征工程和模型训练。数据集的使用过程中，用户可以利用预处理后的数据进行探索性数据分析（EDA），并通过训练机器学习或深度学习模型来实现DDoS攻击的检测。

背景与挑战

背景概述

CIC-DDoS2019数据集是由加拿大网络安全研究所（Canadian Institute for Cybersecurity）创建的，旨在支持分布式拒绝服务（DDoS）攻击检测的研究。该数据集包含了标记的网络流量数据，涵盖了正常流量和DDoS攻击实例，为监督学习提供了丰富的资源。自2019年发布以来，CIC-DDoS2019已成为网络安全领域的重要基准数据集，推动了基于机器学习和深度学习的异常检测技术的发展。

当前挑战

CIC-DDoS2019数据集在构建和应用过程中面临多项挑战。首先，数据集中的类别不平衡问题显著，这要求在模型训练时采用适当的重采样或加权策略。其次，数据预处理阶段需要处理大量的缺失值和无效数值，这增加了数据清洗的复杂性。此外，特征工程的复杂性也是一大挑战，需要通过有效的特征选择和工程化来提升模型的分类性能。最后，尽管已有多种机器学习和深度学习模型在该数据集上进行了测试，但如何进一步提升检测精度和减少误报率仍是当前研究的重点。

常用场景

经典使用场景

在网络安全领域，CIC-DDoS2019数据集被广泛应用于分布式拒绝服务（DDoS）攻击的异常检测。该数据集通过提供标记的网络流量数据，包括正常流量和DDoS攻击实例，支持监督学习。研究者利用此数据集进行探索性数据分析（EDA）、数据预处理、特征工程以及机器学习和深度学习模型的训练，以实现高效的DDoS攻击检测。

解决学术问题

CIC-DDoS2019数据集解决了网络安全领域中DDoS攻击检测的关键学术问题。通过提供丰富的标记数据，该数据集帮助研究者开发和验证新的检测算法，提升模型在复杂网络环境中的准确性和鲁棒性。其对数据预处理和特征工程的详细描述，为学术界提供了宝贵的参考，推动了网络安全技术的发展。

衍生相关工作

基于CIC-DDoS2019数据集，研究者们开展了多项相关工作，包括但不限于改进的机器学习算法、深度学习模型优化以及多层次特征提取方法。这些工作不仅提升了DDoS攻击检测的性能，还推动了网络安全领域的技术进步。例如，一些研究通过结合迁移学习和强化学习，进一步提高了检测模型的泛化能力和适应性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集