sondos833/NSL-KDD

Name: sondos833/NSL-KDD
Creator: sondos833
Published: 2026-05-01 14:51:50
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/sondos833/NSL-KDD

下载链接

链接失效反馈

官方服务：

资源简介：

NSL-KDD数据集是将特定链接提供的arff文件转换为CSV格式的数据集。数据集以float64格式存储数据。它包含有关标签及其数据类型的详细信息，如duration、protocol_type、service、flag等，并为每列指定了计数和非空值。数据集与网络安全相关，如标签所示。

The NSL-KDD dataset is a conversion of the arff file provided by a specific link into CSV format. The dataset is stored with data converted to float64. It includes detailed information about the labels and their data types, such as duration, protocol_type, service, flag, etc., with counts and non-null values specified for each column. The dataset is related to network security, as indicated by the tags.

提供机构：

sondos833

搜集汇总

数据集介绍

构建方式

NSL-KDD数据集源自加拿大新不伦瑞克大学网络安全研究所公开的原始ARFF文件，经过格式转换与数值优化处理而成。原始数据被统一转化为CSV格式，并将所有特征列的数据类型调整为float64，以确保机器学习框架的兼容性与计算效率。该数据集共包含151,165条非空样本，覆盖了网络流量的核心统计指标。

使用方法

该数据集可直接用于训练和评估机器学习模型，支持分类与异常检测任务。用户可通过pandas等库加载CSV文件，将类别型特征（如protocol_type）进行独热编码或标签编码后输入模型。由于特征均已归一化为浮点数，可直接应用于逻辑回归、随机森林或深度学习网络，无需额外预处理。建议将数据集划分为训练集与测试集，用于模型性能的横向对比分析。

背景与挑战

背景概述

NSL-KDD数据集是网络安全领域中用于入侵检测系统评估的经典基准数据集，由加拿大新不伦瑞克大学（UNB）的研究团队于2009年左右创建，旨在克服其前身KDD Cup 1999数据集中存在的冗余与重复记录问题。该数据集聚焦于网络流量分类这一核心研究问题，通过提取41维特征（包括持续时间、协议类型、服务、标志等）来区分正常行为与各类网络攻击。NSL-KDD在入侵检测领域具有深远影响，为机器学习模型在异常检测、特征工程及算法比较方面提供了标准化评估平台，推动了网络安全智能化研究的发展。

当前挑战

该数据集所面临的挑战主要体现在两方面。在领域问题层面，NSL-KDD力图解决的传统入侵检测难题包括：高维特征空间中攻击模式的精准识别、正常与异常流量间的类别不平衡（如罕见攻击类型样本稀少）、以及模型对新型未知攻击的泛化能力不足。在构建过程层面，研究人员需克服的挑战包括：将原始ARFF格式数据转换为CSV格式并统一处理为float64类型以保障兼容性、确保特征数值的完整性与一致性（如151165条无缺失记录）、以及设计能够有效反映真实网络环境复杂性的标签体系（涵盖DoS、Probe、R2L、U2R等攻击类别）。

常用场景

经典使用场景

NSL-KDD数据集作为网络安全领域最为经典的入侵检测基准之一，广泛用于评估和比较不同机器学习与深度学习模型在异常检测任务中的性能。研究者通常利用该数据集构建二分类或多分类模型，以区分正常网络流量与各类攻击行为，包括拒绝服务攻击、用户到根权限提升、远程攻击及端口扫描等。数据集中精心设计的41个维度特征涵盖了连接基本属性、内容特征、流量统计及主机维度统计信息，为模型提供了丰富的判别依据。该数据集在训练阶段常被用于监督学习场景下的分类器训练，同时也适用于半监督与无监督学习的探索，其精心划分的训练集与测试集为公平、可复现的模型评估提供了坚实基础。

解决学术问题

在学术研究层面，NSL-KDD数据集有效解决了早期KDD Cup 99数据集存在的严重数据冗余与偏差问题，例如大量重复记录导致的模型过拟合与评估失真。通过剔除冗余样本并调整各类攻击的比例，该数据集使得研究者能够更真实地衡量入侵检测算法的泛化能力与鲁棒性。它推动了特征选择、降维与数据平衡等预处理技术的研究，促使学术领域深入探索如何在高维、不均衡的网络流量数据中提升检测精度。此外，该数据集支撑了对各类新型攻击检测方法的横向对比，为评估深度学习、集成学习与传统机器学习算法在网络安全中的有效性提供了统一、客观的标尺，加速了入侵检测领域理论创新与实践验证的融合。

实际应用

在工业与实战领域，NSL-KDD数据集常被用作入侵检测系统原型开发与验证的基石。安全厂商与研究人员依托该数据集测试并优化基于规则、统计与机器学习的新型防护系统，尤其是在防火墙、入侵防御设备及安全运营中心的情报分析模块中。数据集的特征维度涵盖了从单连接统计到主机级别聚合的多种行为模式，使其能够模拟真实网络环境中的攻击场景，帮助开发人员调整检测阈值、降低误报率并提升响应速度。同时，该数据集也被用于教育和培训场景，作为网络安全课程与竞赛中的标准实验数据，帮助学员掌握攻击特征分析、模型构建与性能评估的全流程实战技能。

数据集最近研究