five

CIC-DDoS2019|网络安全数据集|DDoS攻击数据集

收藏
github2024-11-26 更新2024-12-01 收录
网络安全
DDoS攻击
下载链接:
https://github.com/saghal/CIC-DDoS2019-ML-Detection
下载链接
链接失效反馈
资源简介:
CIC-DDoS2019数据集包含标记的网络流量数据,包括正常流量和DDoS攻击实例,适用于监督学习。该数据集特别包括`Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv`文件,可以从Kaggle和加拿大网络安全研究所获取。
创建时间:
2024-11-26
原始信息汇总

CIC-DDoS2019 数据集概述

数据集信息

  • 数据集名称: CIC-DDoS2019
  • 文件名称: Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv
  • 数据类型: 网络流量数据,包含正常流量和DDoS攻击实例
  • 数据来源:

数据集处理

探索性数据分析 (EDA)

  • 数据概览: 显示数据集形状、列名和数据类型
  • 缺失值处理: 识别并处理缺失值
  • 无效数值处理: 替换无效数值(如无穷大)
  • 可视化:
    • 缺失值柱状图
    • 数值特征分布直方图
    • 数值特征箱线图(检测并可视化异常值)
    • 目标变量分布饼图

数据预处理

  • 目标编码: 将目标列 (Label) 转换为数值
  • 分类编码: 对所有分类特征进行标签编码
  • 特征移除: 删除不必要的列(如 Timestamp
  • 缺失值和无效值处理: 使用列均值填充缺失值,替换无限值
  • 数据标准化: 使用 StandardScaler 标准化特征
  • 数据分割: 按 80:20 比例分割训练集和测试集

特征工程

  • 特征重要性: 使用 SelectKBest 和 ANOVA F-value 选择前10个特征
  • 异常值检测: 通过箱线图识别异常值

模型与结果

机器学习模型

  • 支持向量机 (SVM):
    • 超参数调优: C (正则化) 和 核类型 (linear, rbf)
    • 性能: 高精度、召回率和F1分数
  • 随机森林分类器:
    • 超参数调优: n_estimators (树数量) 和 max_depth (树深度)
    • 性能: 高准确率,平衡的分类报告和F1分数
  • XGBoost分类器:
    • 超参数调优: learning_raten_estimators
    • 性能: 高精度、召回率和整体准确率

深度学习模型

  • 架构:
    • 输入层: 64个神经元
    • 隐藏层: 两层ReLU激活,批量归一化,30% dropout
    • 输出层: Softmax激活
  • 优化: Adam优化器,学习率调整,早停和学习率衰减
  • 性能: 训练/验证准确率和损失曲线,混淆矩阵和分类报告

结果与发现

  • 机器学习模型: SVM、随机森林和XGBoost在DDoS检测中表现优异
  • 深度学习模型: 竞争性准确率和召回率
  • EDA洞察: 类分布不平衡,数值特征中的异常值
  • 特征工程: 重要特征显著提升分类准确率
AI搜集汇总
数据集介绍
main_image_url
构建方式
CIC-DDoS2019数据集由加拿大网络安全研究所(Canadian Institute for Cybersecurity)构建,旨在提供一个用于分布式拒绝服务(DDoS)攻击检测的监督学习数据集。该数据集包含标记的网络流量数据,涵盖正常流量和DDoS攻击实例。通过从原始网络流量数据中提取特征,并进行详细的预处理,包括处理缺失值、无效数值替换和数据标准化,确保数据集的质量和适用性。
特点
CIC-DDoS2019数据集的一个显著特点是其丰富的特征集和详细的标签信息,这使得它非常适合用于DDoS攻击检测的机器学习和深度学习模型训练。此外,数据集的构建过程中采用了严格的数据清洗和预处理步骤,确保了数据的高质量和一致性。数据集还包含了多种类型的攻击流量,提供了多样化的训练样本,有助于提升模型的泛化能力。
使用方法
使用CIC-DDoS2019数据集进行DDoS攻击检测时,首先需要克隆包含数据集和相关代码的GitHub仓库。随后,创建并激活虚拟环境,安装所需的Python库。接着,可以通过运行Jupyter Notebook或直接执行Python脚本来进行数据分析、特征工程和模型训练。数据集的使用过程中,用户可以利用预处理后的数据进行探索性数据分析(EDA),并通过训练机器学习或深度学习模型来实现DDoS攻击的检测。
背景与挑战
背景概述
CIC-DDoS2019数据集是由加拿大网络安全研究所(Canadian Institute for Cybersecurity)创建的,旨在支持分布式拒绝服务(DDoS)攻击检测的研究。该数据集包含了标记的网络流量数据,涵盖了正常流量和DDoS攻击实例,为监督学习提供了丰富的资源。自2019年发布以来,CIC-DDoS2019已成为网络安全领域的重要基准数据集,推动了基于机器学习和深度学习的异常检测技术的发展。
当前挑战
CIC-DDoS2019数据集在构建和应用过程中面临多项挑战。首先,数据集中的类别不平衡问题显著,这要求在模型训练时采用适当的重采样或加权策略。其次,数据预处理阶段需要处理大量的缺失值和无效数值,这增加了数据清洗的复杂性。此外,特征工程的复杂性也是一大挑战,需要通过有效的特征选择和工程化来提升模型的分类性能。最后,尽管已有多种机器学习和深度学习模型在该数据集上进行了测试,但如何进一步提升检测精度和减少误报率仍是当前研究的重点。
常用场景
经典使用场景
在网络安全领域,CIC-DDoS2019数据集被广泛应用于分布式拒绝服务(DDoS)攻击的异常检测。该数据集通过提供标记的网络流量数据,包括正常流量和DDoS攻击实例,支持监督学习。研究者利用此数据集进行探索性数据分析(EDA)、数据预处理、特征工程以及机器学习和深度学习模型的训练,以实现高效的DDoS攻击检测。
解决学术问题
CIC-DDoS2019数据集解决了网络安全领域中DDoS攻击检测的关键学术问题。通过提供丰富的标记数据,该数据集帮助研究者开发和验证新的检测算法,提升模型在复杂网络环境中的准确性和鲁棒性。其对数据预处理和特征工程的详细描述,为学术界提供了宝贵的参考,推动了网络安全技术的发展。
衍生相关工作
基于CIC-DDoS2019数据集,研究者们开展了多项相关工作,包括但不限于改进的机器学习算法、深度学习模型优化以及多层次特征提取方法。这些工作不仅提升了DDoS攻击检测的性能,还推动了网络安全领域的技术进步。例如,一些研究通过结合迁移学习和强化学习,进一步提高了检测模型的泛化能力和适应性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

MIMII数据集

MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。

arXiv 收录