NSL-KDD Dataset

github2024-04-11 更新2024-05-31 收录

下载链接：

https://github.com/FransHBotes/NSLKDD-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

NSL-KDD数据集是为WEKA设计的，包含了对原始Kdd99数据集的轻微修改，以包括攻击类别如DOS、U2R等。数据集中的所有攻击被分割并使用实数值表示。此外，数据集还进行了编码处理，使得某些字段如flag, service和protocol_type现在表示数值而非分类。该数据集适用于算法验证和研究，特别是在网络安全领域。

The NSL-KDD dataset is designed for WEKA and includes minor modifications to the original Kdd99 dataset to incorporate attack categories such as DOS, U2R, etc. All attacks in the dataset are segmented and represented using real values. Additionally, the dataset has undergone encoding processes, transforming certain fields like flag, service, and protocol_type into numerical representations instead of categorical ones. This dataset is suitable for algorithm validation and research, particularly in the field of network security.

创建时间：

2016-10-20

原始信息汇总

NSLKDD-Dataset 数据集概述

数据集描述

名称: NSLKDD-Dataset
目的: 用于WEKA的数据集，适用于算法验证和研究。
修改内容: 对原始数据集进行了轻微修改，包括攻击类别的细分，如DOS、U2R等，并使用实数值进行编码。

数据集特征

攻击类别编码: 在新的字段xAttack中，为不同类型的攻击分配了实数值：
- dos = [1]
- u2r = [2]
- r2l = [3]
- probe = [4]
- normal = [5]
- unknown = [6]
二元分类: 数据集经过处理，xAttack字段用于二元分类，其中0代表正常流量，1代表恶意流量。
数据分割: 数据集分为训练和验证部分，采用20%的分割比例，其中66%用于训练，34%用于验证。
特征编码: 字段flag, service, 和 protocol_type已从类别值转换为数值。

数据集使用建议

研究适用性: 尽管有观点认为NSL-KDD数据集过时且不真实，但在建立研究方法、算法或解决方案时，提供比较结果是必要的。建议在研究中使用此数据集后，再应用于合成数据集。
多类别分类: 如需基于xAttack字段进行多类别分类，可联系数据集提供者。

引用信息

研究论文: Botes, F., Leenen, L., and De La Harpe, R. (2017). Ant Colony Induced Decision Trees for Intrusion Detection. In: 16th European Conference on Cyber Warfare and Security. ACPI, pp.74-83.
原始数据集创建者: M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani, “A Detailed Analysis of the KDD CUP 99 Data Set,” 2009.

搜集汇总

数据集介绍

构建方式

NSL-KDD数据集是在原始KDD99数据集的基础上进行轻微修改而构建的，旨在包含攻击类别如DOS、U2R等。该数据集通过将所有攻击类型细分为具体类别，并使用实数值进行编码，增强了数据集的表达能力。具体而言，攻击类型被赋予了新的字段xAttack，其中包含如DOS、U2R、R2L、Probe等分类，并进一步转换为二元分类，以便于模型训练和验证。此外，数据集中的特征如flag、service和protocol_type等也被编码为数值形式，以适应算法处理的需求。

特点

NSL-KDD数据集的主要特点在于其对攻击类型的详细分类和实数值编码，这使得数据集在处理网络入侵检测问题时具有较高的实用性和可操作性。此外，数据集还进行了二元分类的转换，将正常流量与恶意流量区分开来，便于进行二分类任务的训练和评估。数据集的特征选择基于ECCWS 2017的研究成果，确保了数据集在科学研究中的可靠性和有效性。

使用方法

NSL-KDD数据集适用于多种机器学习和数据挖掘算法的研究和验证，特别是在网络入侵检测领域。用户可以通过下载数据集并根据需要进行预处理，如特征编码和数据分割，以适应不同的算法需求。数据集提供了训练和验证数据的比例分割，用户可以根据研究需求调整数据集的使用方式。此外，数据集的二元分类特性使其非常适合用于开发和测试新的入侵检测算法，同时也可以扩展到多分类任务。

背景与挑战

背景概述

NSL-KDD数据集是在KDD Cup 99数据集的基础上进行改进而创建的，主要由Frans Botes、Louise Leenen和Retha De La Harpe等研究人员于2017年提出。该数据集的核心研究问题是如何通过改进的分类方法来提高网络入侵检测的准确性。NSL-KDD数据集通过引入新的攻击类别（如DOS、U2R、R2L和Probe）并将其编码为实数值，旨在解决原始KDD Cup 99数据集中存在的冗余和不平衡问题。该数据集在网络安全领域具有重要影响力，尤其是在入侵检测系统的算法验证和比较研究中，为研究人员提供了一个标准化的基准。

当前挑战

NSL-KDD数据集面临的挑战主要集中在数据集的时效性和现实性上。尽管该数据集在入侵检测领域被广泛使用，但由于其基于较早的网络环境，部分研究人员认为其已不能完全反映当前的网络威胁。此外，数据集在构建过程中遇到的挑战包括如何有效地处理和编码分类特征，以及如何确保数据集的平衡性以避免分类偏差。另一个挑战是如何在保持数据集可比性的同时，确保其能够适应现代网络安全的需求，从而为新算法和方法的验证提供可靠的基础。

常用场景

经典使用场景

NSL-KDD数据集在网络安全领域中被广泛用于入侵检测系统的算法验证与评估。其经典使用场景包括通过训练数据集来构建和优化入侵检测模型，随后利用验证数据集对模型的性能进行评估。该数据集通过将网络流量分为正常和恶意两类，支持二元分类任务，同时也支持多类别分类，如拒绝服务攻击（DOS）、用户到根攻击（U2R）、远程到本地攻击（R2L）和探测攻击（Probe）等。

解决学术问题

NSL-KDD数据集解决了网络安全领域中入侵检测算法的标准化评估问题。通过提供一个结构化的、包含多种攻击类型的数据集，研究者能够在统一的基准上比较不同算法的性能，从而推动入侵检测技术的发展。此外，该数据集的存在使得研究结果更具可重复性和可比性，为学术界提供了一个重要的研究工具。

衍生相关工作

NSL-KDD数据集的发布催生了一系列相关的经典工作，特别是在入侵检测和网络安全领域。例如，Botes等人（2017）在其研究中使用了该数据集来验证基于蚁群诱导决策树的入侵检测模型，展示了其在复杂网络环境中的有效性。此外，许多研究者基于NSL-KDD数据集开发了新的算法和模型，进一步推动了入侵检测技术的前沿研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集