CICIDS2018

github2024-10-03 更新2024-11-01 收录

下载链接：

https://github.com/Afaf2003/Intrusion-Detection-System

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括标记的网络流量数据，包含各种攻击（如DoS、暴力破解、SQL注入、僵尸网络等）和正常网络流量。

This dataset contains labeled network traffic data, which includes both normal network traffic and various attack types such as DoS, brute-force attacks, SQL injection, botnets, and other malicious network traffic.

创建时间：

2024-10-02

原始信息汇总

数据集概述

数据集信息

数据集名称

CICIDS2018 Dataset

数据集描述

描述: 该数据集包含标记的网络流量数据，涵盖多种攻击类型（如DoS、暴力破解、SQL注入、僵尸网络等）和正常网络流量。
链接: 数据集可在此处下载 here。
大小: 大型数据集，分为多个CSV文件，总大小超过数百MB。

数据集使用

训练数据: dataset/train_data.csv
测试数据: dataset/test.csv
训练数据版本: artifacts/train_data.csv

数据集处理

数据摄取

脚本: src/components/data_ingestion.py

数据转换

脚本: src/components/data_transformation.py

模型训练

脚本: src/components/model_trainer.py

模型性能

测试准确率

测试准确率: 89.75%
训练准确率: 89.87%

F1分数

测试F1分数: 88.27%
训练F1分数: 88.40%

召回率

测试召回率: 89.75%
训练召回率: 89.87%

精确率

测试精确率: 89.08%
训练精确率: 89.31%

平衡准确率

平衡准确率: 86.55%

ROC AUC

测试ROC AUC: 99.17%
训练ROC AUC: 99.21%

搜集汇总

数据集介绍

构建方式

CICIDS2018数据集的构建基于网络安全领域的实际需求，旨在提供一个全面且详尽的网络流量数据集，以支持入侵检测系统的研究与开发。该数据集包含了多种类型的网络攻击（如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等）以及正常的网络流量数据。通过详细的标签和分类，CICIDS2018数据集为研究人员提供了一个可靠的基准，以评估和改进入侵检测算法。数据集的构建过程涉及对大量网络流量数据的收集、分类和标注，确保了数据的多样性和真实性。

特点

CICIDS2018数据集的主要特点在于其广泛性和多样性。该数据集不仅涵盖了多种常见的网络攻击类型，还包含了大量的正常网络流量数据，从而能够全面反映网络环境的复杂性。此外，数据集的规模庞大，分为多个CSV文件，总容量超过数百MB，为大规模数据处理和分析提供了充足的数据支持。数据集的详细标注和分类使得研究人员能够精确地评估和比较不同入侵检测算法的性能。

使用方法

CICIDS2018数据集的使用方法主要包括数据摄取、数据预处理和模型训练三个主要步骤。首先，通过`data_ingestion.py`脚本从源CSV文件中加载数据。随后，`data_transformation.py`脚本负责对原始数据进行预处理，包括处理缺失值、特征缩放和编码等。最后，`model_trainer.py`脚本利用预处理后的数据训练入侵检测模型。训练完成后，模型和预处理管道分别保存为`model_trained.pkl`和`preprocessor.pkl`文件，便于后续的模型评估和部署。

背景与挑战

背景概述

CICIDS2018数据集是由加拿大纽布伦斯威克大学（University of New Brunswick）的研究团队创建的，旨在支持网络安全领域的入侵检测系统（IDS）研究。该数据集包含了多种网络攻击类型（如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等）和正常网络流量的标记数据，为研究人员提供了一个全面且详尽的资源，以开发和评估机器学习模型在实时网络流量中的异常检测能力。CICIDS2018的发布极大地推动了网络安全领域的发展，特别是在入侵检测和异常行为分析方面，为学术界和工业界提供了宝贵的数据支持。

当前挑战

CICIDS2018数据集在构建和应用过程中面临多项挑战。首先，数据集的规模庞大，包含多个CSV文件，总大小超过数百MB，这给数据处理和存储带来了技术难题。其次，网络攻击类型的多样性和复杂性使得数据标注和分类变得异常困难，需要高度专业化的知识和技能。此外，数据集中的不平衡问题也是一个显著挑战，不同攻击类型的样本数量差异巨大，这可能导致模型在处理少数类攻击时表现不佳。最后，实时网络流量的动态变化和不断演变的攻击手段要求模型具备持续学习和适应的能力，这对模型的更新和维护提出了更高的要求。

常用场景

经典使用场景

CICIDS2018数据集在网络安全领域中被广泛应用于入侵检测系统的构建与优化。该数据集包含了多种网络攻击类型（如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等）和正常网络流量的详细标签数据。通过使用这些数据，研究人员和工程师能够训练机器学习模型，以识别和分类网络中的异常行为，从而实现对潜在威胁的实时检测和响应。

衍生相关工作

基于CICIDS2018数据集，许多相关研究工作得以展开。例如，有研究者利用该数据集开发了新的机器学习算法，以提高入侵检测的准确性和效率。同时，也有学者通过分析数据集中的特征，提出了新的网络攻击分类方法。此外，CICIDS2018还激发了关于数据预处理和特征工程的研究，以更好地利用大规模网络流量数据进行模型训练和评估。

数据集最近研究