five

CICIDS2018

收藏
github2024-10-03 更新2024-11-01 收录
下载链接:
https://github.com/Afaf2003/Intrusion-Detection-System
下载链接
链接失效反馈
资源简介:
该数据集包括标记的网络流量数据,包含各种攻击(如DoS、暴力破解、SQL注入、僵尸网络等)和正常网络流量。

This dataset consists of labeled network traffic data, covering various types of attacks (e.g., DoS, brute-force attacks, SQL injection, botnet attacks, etc.) and normal network traffic.
创建时间:
2024-10-02
原始信息汇总

数据集概述

数据集信息

数据集名称

  • CICIDS2018 Dataset

数据集描述

  • 描述: 该数据集包含标记的网络流量数据,涵盖多种攻击类型(如DoS、暴力破解、SQL注入、僵尸网络等)和正常网络流量。
  • 链接: 数据集可在此处下载 here
  • 大小: 大型数据集,分为多个CSV文件,总大小超过数百MB。

数据集使用

  • 训练数据: dataset/train_data.csv
  • 测试数据: dataset/test.csv
  • 训练数据版本: artifacts/train_data.csv

数据集处理

数据摄取

  • 脚本: src/components/data_ingestion.py

数据转换

  • 脚本: src/components/data_transformation.py

模型训练

  • 脚本: src/components/model_trainer.py

模型性能

测试准确率

  • 测试准确率: 89.75%
  • 训练准确率: 89.87%

F1分数

  • 测试F1分数: 88.27%
  • 训练F1分数: 88.40%

召回率

  • 测试召回率: 89.75%
  • 训练召回率: 89.87%

精确率

  • 测试精确率: 89.08%
  • 训练精确率: 89.31%

平衡准确率

  • 平衡准确率: 86.55%

ROC AUC

  • 测试ROC AUC: 99.17%
  • 训练ROC AUC: 99.21%
AI搜集汇总
数据集介绍
main_image_url
构建方式
CICIDS2018数据集的构建基于网络安全领域的实际需求,旨在提供一个全面且详尽的网络流量数据集,以支持入侵检测系统的研究与开发。该数据集包含了多种类型的网络攻击(如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等)以及正常的网络流量数据。通过详细的标签和分类,CICIDS2018数据集为研究人员提供了一个可靠的基准,以评估和改进入侵检测算法。数据集的构建过程涉及对大量网络流量数据的收集、分类和标注,确保了数据的多样性和真实性。
特点
CICIDS2018数据集的主要特点在于其广泛性和多样性。该数据集不仅涵盖了多种常见的网络攻击类型,还包含了大量的正常网络流量数据,从而能够全面反映网络环境的复杂性。此外,数据集的规模庞大,分为多个CSV文件,总容量超过数百MB,为大规模数据处理和分析提供了充足的数据支持。数据集的详细标注和分类使得研究人员能够精确地评估和比较不同入侵检测算法的性能。
使用方法
CICIDS2018数据集的使用方法主要包括数据摄取、数据预处理和模型训练三个主要步骤。首先,通过`data_ingestion.py`脚本从源CSV文件中加载数据。随后,`data_transformation.py`脚本负责对原始数据进行预处理,包括处理缺失值、特征缩放和编码等。最后,`model_trainer.py`脚本利用预处理后的数据训练入侵检测模型。训练完成后,模型和预处理管道分别保存为`model_trained.pkl`和`preprocessor.pkl`文件,便于后续的模型评估和部署。
背景与挑战
背景概述
CICIDS2018数据集是由加拿大纽布伦斯威克大学(University of New Brunswick)的研究团队创建的,旨在支持网络安全领域的入侵检测系统(IDS)研究。该数据集包含了多种网络攻击类型(如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等)和正常网络流量的标记数据,为研究人员提供了一个全面且详尽的资源,以开发和评估机器学习模型在实时网络流量中的异常检测能力。CICIDS2018的发布极大地推动了网络安全领域的发展,特别是在入侵检测和异常行为分析方面,为学术界和工业界提供了宝贵的数据支持。
当前挑战
CICIDS2018数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,包含多个CSV文件,总大小超过数百MB,这给数据处理和存储带来了技术难题。其次,网络攻击类型的多样性和复杂性使得数据标注和分类变得异常困难,需要高度专业化的知识和技能。此外,数据集中的不平衡问题也是一个显著挑战,不同攻击类型的样本数量差异巨大,这可能导致模型在处理少数类攻击时表现不佳。最后,实时网络流量的动态变化和不断演变的攻击手段要求模型具备持续学习和适应的能力,这对模型的更新和维护提出了更高的要求。
常用场景
经典使用场景
CICIDS2018数据集在网络安全领域中被广泛应用于入侵检测系统的构建与优化。该数据集包含了多种网络攻击类型(如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等)和正常网络流量的详细标签数据。通过使用这些数据,研究人员和工程师能够训练机器学习模型,以识别和分类网络中的异常行为,从而实现对潜在威胁的实时检测和响应。
衍生相关工作
基于CICIDS2018数据集,许多相关研究工作得以展开。例如,有研究者利用该数据集开发了新的机器学习算法,以提高入侵检测的准确性和效率。同时,也有学者通过分析数据集中的特征,提出了新的网络攻击分类方法。此外,CICIDS2018还激发了关于数据预处理和特征工程的研究,以更好地利用大规模网络流量数据进行模型训练和评估。
数据集最近研究
最新研究方向
在网络安全领域,CICIDS2018数据集的最新研究方向主要集中在利用机器学习模型提升入侵检测系统的性能。研究者们致力于通过深度学习、强化学习等先进技术,进一步提高模型对网络流量中异常行为和恶意活动的识别精度。此外,随着网络攻击手段的不断演变,研究还关注于如何通过多源数据融合和实时数据处理,增强系统的实时响应能力和鲁棒性。这些研究不仅有助于提升现有入侵检测系统的效能,也为构建更加智能和自适应的网络安全防护体系提供了新的思路和方法。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作