five

CICIDS2018|网络安全数据集|网络入侵检测数据集

收藏
github2024-10-03 更新2024-11-01 收录
网络安全
网络入侵检测
下载链接:
https://github.com/Afaf2003/Intrusion-Detection-System
下载链接
链接失效反馈
资源简介:
该数据集包括标记的网络流量数据,包含各种攻击(如DoS、暴力破解、SQL注入、僵尸网络等)和正常网络流量。
创建时间:
2024-10-02
原始信息汇总

数据集概述

数据集信息

数据集名称

  • CICIDS2018 Dataset

数据集描述

  • 描述: 该数据集包含标记的网络流量数据,涵盖多种攻击类型(如DoS、暴力破解、SQL注入、僵尸网络等)和正常网络流量。
  • 链接: 数据集可在此处下载 here
  • 大小: 大型数据集,分为多个CSV文件,总大小超过数百MB。

数据集使用

  • 训练数据: dataset/train_data.csv
  • 测试数据: dataset/test.csv
  • 训练数据版本: artifacts/train_data.csv

数据集处理

数据摄取

  • 脚本: src/components/data_ingestion.py

数据转换

  • 脚本: src/components/data_transformation.py

模型训练

  • 脚本: src/components/model_trainer.py

模型性能

测试准确率

  • 测试准确率: 89.75%
  • 训练准确率: 89.87%

F1分数

  • 测试F1分数: 88.27%
  • 训练F1分数: 88.40%

召回率

  • 测试召回率: 89.75%
  • 训练召回率: 89.87%

精确率

  • 测试精确率: 89.08%
  • 训练精确率: 89.31%

平衡准确率

  • 平衡准确率: 86.55%

ROC AUC

  • 测试ROC AUC: 99.17%
  • 训练ROC AUC: 99.21%
AI搜集汇总
数据集介绍
main_image_url
构建方式
CICIDS2018数据集的构建基于网络安全领域的实际需求,旨在提供一个全面且详尽的网络流量数据集,以支持入侵检测系统的研究与开发。该数据集包含了多种类型的网络攻击(如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等)以及正常的网络流量数据。通过详细的标签和分类,CICIDS2018数据集为研究人员提供了一个可靠的基准,以评估和改进入侵检测算法。数据集的构建过程涉及对大量网络流量数据的收集、分类和标注,确保了数据的多样性和真实性。
特点
CICIDS2018数据集的主要特点在于其广泛性和多样性。该数据集不仅涵盖了多种常见的网络攻击类型,还包含了大量的正常网络流量数据,从而能够全面反映网络环境的复杂性。此外,数据集的规模庞大,分为多个CSV文件,总容量超过数百MB,为大规模数据处理和分析提供了充足的数据支持。数据集的详细标注和分类使得研究人员能够精确地评估和比较不同入侵检测算法的性能。
使用方法
CICIDS2018数据集的使用方法主要包括数据摄取、数据预处理和模型训练三个主要步骤。首先,通过`data_ingestion.py`脚本从源CSV文件中加载数据。随后,`data_transformation.py`脚本负责对原始数据进行预处理,包括处理缺失值、特征缩放和编码等。最后,`model_trainer.py`脚本利用预处理后的数据训练入侵检测模型。训练完成后,模型和预处理管道分别保存为`model_trained.pkl`和`preprocessor.pkl`文件,便于后续的模型评估和部署。
背景与挑战
背景概述
CICIDS2018数据集是由加拿大纽布伦斯威克大学(University of New Brunswick)的研究团队创建的,旨在支持网络安全领域的入侵检测系统(IDS)研究。该数据集包含了多种网络攻击类型(如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等)和正常网络流量的标记数据,为研究人员提供了一个全面且详尽的资源,以开发和评估机器学习模型在实时网络流量中的异常检测能力。CICIDS2018的发布极大地推动了网络安全领域的发展,特别是在入侵检测和异常行为分析方面,为学术界和工业界提供了宝贵的数据支持。
当前挑战
CICIDS2018数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,包含多个CSV文件,总大小超过数百MB,这给数据处理和存储带来了技术难题。其次,网络攻击类型的多样性和复杂性使得数据标注和分类变得异常困难,需要高度专业化的知识和技能。此外,数据集中的不平衡问题也是一个显著挑战,不同攻击类型的样本数量差异巨大,这可能导致模型在处理少数类攻击时表现不佳。最后,实时网络流量的动态变化和不断演变的攻击手段要求模型具备持续学习和适应的能力,这对模型的更新和维护提出了更高的要求。
常用场景
经典使用场景
CICIDS2018数据集在网络安全领域中被广泛应用于入侵检测系统的构建与优化。该数据集包含了多种网络攻击类型(如拒绝服务攻击、暴力破解、SQL注入、僵尸网络等)和正常网络流量的详细标签数据。通过使用这些数据,研究人员和工程师能够训练机器学习模型,以识别和分类网络中的异常行为,从而实现对潜在威胁的实时检测和响应。
衍生相关工作
基于CICIDS2018数据集,许多相关研究工作得以展开。例如,有研究者利用该数据集开发了新的机器学习算法,以提高入侵检测的准确性和效率。同时,也有学者通过分析数据集中的特征,提出了新的网络攻击分类方法。此外,CICIDS2018还激发了关于数据预处理和特征工程的研究,以更好地利用大规模网络流量数据进行模型训练和评估。
数据集最近研究
最新研究方向
在网络安全领域,CICIDS2018数据集的最新研究方向主要集中在利用机器学习模型提升入侵检测系统的性能。研究者们致力于通过深度学习、强化学习等先进技术,进一步提高模型对网络流量中异常行为和恶意活动的识别精度。此外,随着网络攻击手段的不断演变,研究还关注于如何通过多源数据融合和实时数据处理,增强系统的实时响应能力和鲁棒性。这些研究不仅有助于提升现有入侵检测系统的效能,也为构建更加智能和自适应的网络安全防护体系提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录