CICIDS 2017

github2024-08-06 更新2024-08-07 收录

下载链接：

https://github.com/imArjunMalik/network-anomaly-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含各种类型攻击和正常流量的标记网络流量数据，用于网络异常检测。

This dataset contains labeled network traffic data covering various types of attacks and normal network traffic, and is designed for network anomaly detection.

创建时间：

2024-07-20

原始信息汇总

数据集概述

数据集信息

数据集名称: CICIDS 2017
数据内容: 包含各种类型攻击和正常流量的标记网络流量数据。

预处理步骤

数据预处理:
- 合并初始CSV文件（280万条记录）。
- 移除缺失值。
- 进行归一化处理。
标签编码:
- 编码分类标签。
- 0 = 异常，1 = 良性。
特征选择:
- 使用随机森林进行特征重要性分析。
- 从78个特征中选择前20个特征。
模型训练:
- 将数据集分为训练集和测试集。
- 构建并训练神经网络模型。
- 应用早停法防止过拟合。

神经网络架构

输入层: 接受前20个选定的特征。
隐藏层: 两个隐藏层，使用ReLU激活函数和Dropout进行正则化。
- 密集层，64个单元，ReLU激活。
- Dropout层，0.5比率。
- 密集层，32个单元，ReLU激活。
- Dropout层，0.5比率。
输出层: 使用Sigmoid激活函数输出二分类的概率得分。

模型训练

优化器: Adam
损失函数: 二元交叉熵
评价指标: 准确率
早停法: 监控验证损失，耐心值为5个周期。

模型评估

混淆矩阵: 可视化真实标签与预测标签。
ROC曲线: 分析模型的诊断能力。
训练曲线: 绘制训练和验证的损失及准确率随周期的变化。

结果

混淆矩阵: 展示了模型正确和错误预测的数量。
- 真阳性: 正确识别的良性流量。
- 真阴性: 正确识别的异常流量。
- 假阳性: 良性流量被错误分类为异常。
- 假阴性: 异常流量被错误分类为良性。
ROC曲线: 展示了不同阈值设置下真阳性率和假阳性率的权衡。AUC值为0.99，表明模型性能优秀。
训练和验证损失: 显示了模型损失随周期的变化，表明模型学习的效果。
训练和验证准确率: 显示了模型准确率随周期的变化，表明模型预测与真实标签的对齐程度。

搜集汇总

数据集介绍

构建方式

在构建CICIDS 2017数据集时，研究者首先将多个初始CSV文件合并，形成一个包含280万条记录的大型数据集。随后，通过去除缺失值和标准化特征，确保数据的完整性和一致性。为了进一步优化模型性能，研究者采用随机森林算法进行特征选择，从中筛选出最具代表性的20个特征，这些特征从原始的78个特征中脱颖而出。最后，数据集被划分为训练集和测试集，为后续的神经网络模型训练提供了坚实的基础。

特点

CICIDS 2017数据集的显著特点在于其丰富的标注信息和经过精心筛选的特征集。该数据集不仅包含了多种类型的网络攻击和正常流量，还通过标签编码将数据分为异常（0）和良性（1）两类，为二分类任务提供了明确的目标。此外，通过随机森林算法筛选出的20个关键特征，极大地简化了模型的输入维度，提高了模型的训练效率和预测准确性。

使用方法

使用CICIDS 2017数据集时，用户首先需要安装Python 3.x环境，并确保所有必要的Python包已安装。随后，通过克隆GitHub仓库并进入项目目录，用户可以开始数据集的加载和预处理。在模型训练阶段，用户可以利用提供的神经网络架构进行训练，并根据训练和验证损失曲线调整模型参数。最终，通过评估混淆矩阵、ROC曲线和训练准确率等指标，用户可以全面评估模型的性能。

背景与挑战

背景概述

在当今数字化时代，网络安全问题日益突出。随着网络攻击的数量和复杂性不断增加，保护网络完整性变得至关重要。CICIDS 2017数据集应运而生，旨在通过提供标记的网络流量数据来增强网络安全性，这些数据包括各种类型的攻击和正常流量。该数据集由主要研究人员或机构在特定时间创建，其核心研究问题在于利用先进的神经网络技术识别和分类异常网络流量。CICIDS 2017数据集的发布对网络异常检测领域产生了深远影响，为研究人员提供了一个标准化的基准，推动了该领域的发展。

当前挑战

CICIDS 2017数据集在构建过程中面临了多个挑战。首先，数据集的初始规模庞大，包含280万条记录，需要进行复杂的数据预处理，包括缺失值的移除和特征的归一化。其次，标签编码和特征选择过程需要精确处理，以确保模型的有效性。此外，模型训练过程中需应对过拟合问题，通过应用早停法来优化模型性能。这些挑战不仅涉及技术层面的复杂性，还要求研究人员具备深厚的领域知识，以确保数据集的质量和实用性。

常用场景

经典使用场景

在当今数字化时代，网络安全问题日益突出。CICIDS 2017数据集通过提供标记的网络流量数据，支持了多种类型的攻击和正常流量的分类。该数据集的经典使用场景主要集中在网络异常检测领域，通过训练神经网络模型，识别和分类网络中的异常流量，从而提升网络安全性。

实际应用

在实际应用中，CICIDS 2017数据集被广泛用于开发和测试网络异常检测系统。例如，企业网络安全团队可以利用该数据集训练和优化其入侵检测系统，以提高对潜在威胁的识别能力。此外，政府和研究机构也利用该数据集进行网络安全研究，制定更有效的防御策略。

衍生相关工作

基于CICIDS 2017数据集，许多相关研究工作得以展开。例如，研究人员开发了多种基于深度学习的网络异常检测模型，这些模型在检测精度和效率上都有显著提升。此外，该数据集还促进了跨学科的研究，如结合机器学习和网络安全理论，探索更高效的网络防御机制。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集