NSL-KDD

github2024-11-16 更新2024-11-17 收录

下载链接：

https://github.com/GLCRealm/IDS-Anomaly-Detection-with-NSL-KDD

下载链接

链接失效反馈

官方服务：

资源简介：

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本，解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件，以及包含数据集列名的文件。

The NSL-KDD dataset is a network traffic dataset designed for testing intrusion detection algorithms. It is an improved version of the KDD Cup 1999 dataset, which addresses the issues of redundant records and class imbalance in the original dataset. This dataset includes training and test data files, as well as a file containing the column names of the dataset.

创建时间：

2024-11-16

原始信息汇总

数据集概述

数据集名称

NSL-KDD 数据集

数据集来源

NSL-KDD 数据集

数据集描述

NSL-KDD 数据集是一个用于测试入侵检测算法的广泛使用的数据集。它是 KDD Cup 1999 数据集的改进版本，解决了原始数据集中存在的冗余记录和类别不平衡等问题。

数据集文件

KDDTrain+.txt: 训练数据集
KDDTest+.txt: 测试数据集
kddcup.names: 包含数据集列名的文件

数据集用途

该数据集用于训练和评估入侵检测系统（IDS）模型，以分类网络流量为正常或异常。

搜集汇总

数据集介绍

构建方式

NSL-KDD数据集是在KDD Cup 1999数据集的基础上进行精炼和优化而构建的，旨在解决原始数据集中存在的冗余记录和类别不平衡问题。该数据集由三个主要文件组成：用于训练的`KDDTrain+.txt`、用于测试的`KDDTest+.txt`以及包含数据集列名的`kddcup.names`文件。通过这些文件，NSL-KDD数据集为网络流量特征提供了详细的标注，从而为入侵检测系统的训练和评估提供了坚实的基础。

特点

NSL-KDD数据集的主要特点在于其精炼后的数据结构和丰富的网络流量特征。相较于原始的KDD Cup 1999数据集，NSL-KDD消除了冗余记录，改善了类别不平衡问题，从而提高了模型的训练效率和检测准确性。此外，该数据集包含了多种网络协议和攻击类型的详细信息，使得其在入侵检测领域的应用具有广泛的代表性和实用性。

使用方法

使用NSL-KDD数据集进行入侵检测模型的训练和评估，首先需要下载数据集并将其放置在项目的`dataset/`文件夹中。随后，通过运行`IDS_train.ipynb`文件，可以加载数据集并进行预处理，包括将分类变量转换为二进制形式以及生成额外的特征。训练完成后，模型将被保存为`ebest_model.pkl`。为了测试模型的性能，可以使用`test_model.py`文件加载训练好的模型，并对输入数据进行预测，以判断网络流量是否为正常或异常。

背景与挑战

背景概述

NSL-KDD数据集是网络入侵检测系统（IDS）领域中的一个重要资源，由KDD Cup 1999数据集的改进版本构成。该数据集由Ashish Patel在Kaggle上发布，旨在解决原始数据集中存在的冗余记录和类别不平衡问题。NSL-KDD数据集包含网络流量特征及其对应的标签，用于区分正常流量与异常流量。其核心研究问题在于通过机器学习模型，如随机森林分类器，来准确识别网络中的入侵行为。该数据集的创建和应用对网络安全的研究与实践产生了深远影响，为后续的入侵检测算法提供了标准化的评估基准。

当前挑战

NSL-KDD数据集在构建和应用过程中面临多项挑战。首先，数据集的预处理阶段需要处理大量的分类变量，并创建新的特征以提高模型的性能。其次，类别不平衡问题仍然存在，这可能导致模型对少数类别的检测能力不足。此外，模型的训练和评估过程中，如何有效地进行超参数调优以提升模型的泛化能力也是一个关键挑战。最后，尽管NSL-KDD数据集在网络入侵检测领域具有广泛应用，但其数据特征和标签的更新速度可能无法完全适应快速变化的网络威胁环境，这要求研究者不断更新和优化数据集以保持其时效性和有效性。

常用场景

经典使用场景

NSL-KDD数据集在网络入侵检测系统（IDS）中被广泛应用，主要用于训练和评估异常检测模型。通过该数据集，研究者可以训练随机森林分类器，以区分正常网络流量和异常流量。数据集包含网络流量的特征及其对应的标签，这些特征经过预处理后，用于模型训练，从而实现对网络入侵的准确检测。

衍生相关工作

基于NSL-KDD数据集，研究者们开发了多种入侵检测模型和算法，如随机森林、支持向量机等。这些模型在学术界和工业界得到了广泛应用，并衍生出了一系列相关研究工作，包括但不限于特征选择、模型优化和实时检测系统的构建。这些工作进一步推动了网络入侵检测技术的发展和创新。

数据集最近研究