CICIDS 17

github2024-07-17 更新2024-07-22 收录

下载链接：

https://github.com/ParanoidLA/Intrusion-Detection-Using-ML-on-CICIDS-17

下载链接

链接失效反馈

官方服务：

资源简介：

CICIDS 17数据集是一个综合性的入侵检测数据集，包含了多种攻击类型，用于训练机器学习模型以识别网络安全威胁。

The CICIDS 17 dataset is a comprehensive intrusion detection dataset containing multiple attack types, which is designed for training machine learning models to identify cybersecurity threats.

创建时间：

2024-07-17

原始信息汇总

入侵检测机器学习项目

概述

本项目使用CICIDS 17数据集开发机器学习模型进行入侵检测，探索了机器学习和深度学习方法。

数据集

使用CICIDS数据集，该数据集包含多种攻击类型的入侵数据。
数据集不平衡，影响算法性能。

数据集下载

项目所需的Python文件可在仓库中获取。
从这里下载CICIDS数据集。
按顺序运行所有Python文件以创建所需的CSV文件，包括创建平衡数据集。

快速开始

另一种快速概览方法：
- 解压required_csv.zip中的两个CSV文件。
- 运行model_train_ML.py训练机器学习模型。
- 运行MLDF_model_test.py在预处理数据集上测试创建的模型。

注意：更改文件路径

请注意，您可能需要更改Python代码中的文件路径以匹配保存CSV文件的位置。

模型训练

在平衡数据集上训练机器学习模型。
获得可部署的训练模型。

未来目标

探索深度学习，计划训练卷积神经网络（CNN）模型。
探索生成对抗网络（GAN）在表格数据上的应用。
使用统计方法验证生成的数据。
将生成的数据集成到深度学习方法中。

搜集汇总

数据集介绍

构建方式

CICIDS 17数据集的构建基于对网络流量数据的全面收集与分类，涵盖了多种攻击类型。该数据集通过详细的网络流量记录，捕捉了正常与异常流量模式，为机器学习模型的训练提供了丰富的数据基础。其构建过程中特别关注了数据的不平衡性，通过特定的处理方法创建了平衡的数据集，以确保模型训练的有效性。

使用方法

使用CICIDS 17数据集时，用户需首先下载并解压相关CSV文件，随后通过运行Python脚本进行数据预处理和模型训练。具体步骤包括运行`model_train_ML.py`进行模型训练，以及`MLDF_model_test.py`进行模型测试。用户需注意根据本地文件路径调整代码中的路径设置，以确保程序的顺利运行。

背景与挑战

背景概述

CICIDS 17数据集是由Lakshya Agrawal、Adarsh Jha和Gunjan Agrawal等研究人员创建的，旨在通过机器学习和深度学习方法检测网络中的异常和入侵行为。该数据集包含了多种攻击类型，为网络安全领域的研究提供了丰富的资源。CICIDS 17的创建不仅推动了入侵检测技术的发展，还为学术界和工业界提供了一个标准化的基准，以评估和比较不同的入侵检测算法。

当前挑战

CICIDS 17数据集在构建过程中面临的主要挑战之一是其不平衡性，这直接影响了算法的性能。此外，数据集的复杂性和多样性也增加了模型训练的难度。未来的研究方向包括探索深度学习方法，如卷积神经网络（CNN）和生成对抗网络（GAN），以进一步提升入侵检测的准确性和效率。

常用场景

经典使用场景

在网络安全领域，CICIDS 17数据集被广泛用于入侵检测系统的开发与优化。通过该数据集，研究人员能够训练机器学习模型，识别网络流量中的异常模式，从而有效区分正常流量与潜在的安全威胁。这种基于数据驱动的入侵检测方法，不仅提升了检测的准确性，还增强了系统的实时响应能力。

解决学术问题

CICIDS 17数据集解决了网络安全领域中入侵检测的准确性与实时性问题。传统的入侵检测系统往往依赖于规则和签名，难以应对新型攻击。而基于机器学习的方法，通过分析大量历史数据，能够自动学习并识别复杂的攻击模式，从而提高检测的灵敏度和覆盖率。这一突破对于提升网络防御能力具有重要意义。

实际应用

在实际应用中，CICIDS 17数据集已被用于开发和部署多种入侵检测系统。例如，企业网络安全团队利用该数据集训练模型，以监控和分析内部网络流量，及时发现并应对潜在威胁。此外，该数据集还支持在ELK Stack等平台上进行实时数据模拟和攻击检测，进一步验证和优化模型的性能。

数据集最近研究