five

CIC-DDoS2019

收藏
github2024-11-26 更新2024-12-01 收录
下载链接:
https://github.com/saghal/CIC-DDoS2019-ML-Detection
下载链接
链接失效反馈
官方服务:
资源简介:
CIC-DDoS2019数据集包含标记的网络流量数据,包括正常流量和DDoS攻击实例,适用于监督学习。该数据集特别包括`Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv`文件,可以从Kaggle和加拿大网络安全研究所获取。

The CIC-DDoS2019 dataset consists of labeled network traffic data, covering both normal traffic and DDoS attack instances, and is applicable for supervised learning tasks. It specifically includes the file `Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv`, and is accessible via Kaggle and the Canadian Institute for Cybersecurity.
创建时间:
2024-11-26
原始信息汇总

CIC-DDoS2019 数据集概述

数据集信息

  • 数据集名称: CIC-DDoS2019
  • 文件名称: Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv
  • 数据类型: 网络流量数据,包含正常流量和DDoS攻击实例
  • 数据来源:

数据集处理

探索性数据分析 (EDA)

  • 数据概览: 显示数据集形状、列名和数据类型
  • 缺失值处理: 识别并处理缺失值
  • 无效数值处理: 替换无效数值(如无穷大)
  • 可视化:
    • 缺失值柱状图
    • 数值特征分布直方图
    • 数值特征箱线图(检测并可视化异常值)
    • 目标变量分布饼图

数据预处理

  • 目标编码: 将目标列 (Label) 转换为数值
  • 分类编码: 对所有分类特征进行标签编码
  • 特征移除: 删除不必要的列(如 Timestamp
  • 缺失值和无效值处理: 使用列均值填充缺失值,替换无限值
  • 数据标准化: 使用 StandardScaler 标准化特征
  • 数据分割: 按 80:20 比例分割训练集和测试集

特征工程

  • 特征重要性: 使用 SelectKBest 和 ANOVA F-value 选择前10个特征
  • 异常值检测: 通过箱线图识别异常值

模型与结果

机器学习模型

  • 支持向量机 (SVM):
    • 超参数调优: C (正则化) 和 核类型 (linear, rbf)
    • 性能: 高精度、召回率和F1分数
  • 随机森林分类器:
    • 超参数调优: n_estimators (树数量) 和 max_depth (树深度)
    • 性能: 高准确率,平衡的分类报告和F1分数
  • XGBoost分类器:
    • 超参数调优: learning_raten_estimators
    • 性能: 高精度、召回率和整体准确率

深度学习模型

  • 架构:
    • 输入层: 64个神经元
    • 隐藏层: 两层ReLU激活,批量归一化,30% dropout
    • 输出层: Softmax激活
  • 优化: Adam优化器,学习率调整,早停和学习率衰减
  • 性能: 训练/验证准确率和损失曲线,混淆矩阵和分类报告

结果与发现

  • 机器学习模型: SVM、随机森林和XGBoost在DDoS检测中表现优异
  • 深度学习模型: 竞争性准确率和召回率
  • EDA洞察: 类分布不平衡,数值特征中的异常值
  • 特征工程: 重要特征显著提升分类准确率
搜集汇总
数据集介绍
main_image_url
构建方式
CIC-DDoS2019数据集由加拿大网络安全研究所(Canadian Institute for Cybersecurity)构建,旨在提供一个用于分布式拒绝服务(DDoS)攻击检测的监督学习数据集。该数据集包含标记的网络流量数据,涵盖正常流量和DDoS攻击实例。通过从原始网络流量数据中提取特征,并进行详细的预处理,包括处理缺失值、无效数值替换和数据标准化,确保数据集的质量和适用性。
特点
CIC-DDoS2019数据集的一个显著特点是其丰富的特征集和详细的标签信息,这使得它非常适合用于DDoS攻击检测的机器学习和深度学习模型训练。此外,数据集的构建过程中采用了严格的数据清洗和预处理步骤,确保了数据的高质量和一致性。数据集还包含了多种类型的攻击流量,提供了多样化的训练样本,有助于提升模型的泛化能力。
使用方法
使用CIC-DDoS2019数据集进行DDoS攻击检测时,首先需要克隆包含数据集和相关代码的GitHub仓库。随后,创建并激活虚拟环境,安装所需的Python库。接着,可以通过运行Jupyter Notebook或直接执行Python脚本来进行数据分析、特征工程和模型训练。数据集的使用过程中,用户可以利用预处理后的数据进行探索性数据分析(EDA),并通过训练机器学习或深度学习模型来实现DDoS攻击的检测。
背景与挑战
背景概述
CIC-DDoS2019数据集是由加拿大网络安全研究所(Canadian Institute for Cybersecurity)创建的,旨在支持分布式拒绝服务(DDoS)攻击检测的研究。该数据集包含了标记的网络流量数据,涵盖了正常流量和DDoS攻击实例,为监督学习提供了丰富的资源。自2019年发布以来,CIC-DDoS2019已成为网络安全领域的重要基准数据集,推动了基于机器学习和深度学习的异常检测技术的发展。
当前挑战
CIC-DDoS2019数据集在构建和应用过程中面临多项挑战。首先,数据集中的类别不平衡问题显著,这要求在模型训练时采用适当的重采样或加权策略。其次,数据预处理阶段需要处理大量的缺失值和无效数值,这增加了数据清洗的复杂性。此外,特征工程的复杂性也是一大挑战,需要通过有效的特征选择和工程化来提升模型的分类性能。最后,尽管已有多种机器学习和深度学习模型在该数据集上进行了测试,但如何进一步提升检测精度和减少误报率仍是当前研究的重点。
常用场景
经典使用场景
在网络安全领域,CIC-DDoS2019数据集被广泛应用于分布式拒绝服务(DDoS)攻击的异常检测。该数据集通过提供标记的网络流量数据,包括正常流量和DDoS攻击实例,支持监督学习。研究者利用此数据集进行探索性数据分析(EDA)、数据预处理、特征工程以及机器学习和深度学习模型的训练,以实现高效的DDoS攻击检测。
解决学术问题
CIC-DDoS2019数据集解决了网络安全领域中DDoS攻击检测的关键学术问题。通过提供丰富的标记数据,该数据集帮助研究者开发和验证新的检测算法,提升模型在复杂网络环境中的准确性和鲁棒性。其对数据预处理和特征工程的详细描述,为学术界提供了宝贵的参考,推动了网络安全技术的发展。
衍生相关工作
基于CIC-DDoS2019数据集,研究者们开展了多项相关工作,包括但不限于改进的机器学习算法、深度学习模型优化以及多层次特征提取方法。这些工作不仅提升了DDoS攻击检测的性能,还推动了网络安全领域的技术进步。例如,一些研究通过结合迁移学习和强化学习,进一步提高了检测模型的泛化能力和适应性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作