five

NSL-KDD|网络入侵检测数据集|网络安全数据集

收藏
github2024-04-04 更新2024-05-31 收录
网络入侵检测
网络安全
下载链接:
https://github.com/kahramankostas/Multi-class-attack-detection-on-NSL-KDD-dataset-using-TabTransformer
下载链接
链接失效反馈
资源简介:
NSL-KDD数据集是一个用于网络入侵检测的数据集,包含了多种网络攻击类型和正常网络流量数据。数据集中的攻击类型包括拒绝服务攻击、远程到本地攻击、用户到根攻击和探测攻击等。

The NSL-KDD dataset is a dataset designed for network intrusion detection, encompassing a variety of network attack types and normal network traffic data. The attack types included in the dataset consist of Denial of Service (DoS) attacks, Remote to Local (R2L) attacks, User to Root (U2R) attacks, and Probe attacks, among others.
创建时间:
2024-04-04
原始信息汇总

数据集概述

数据集名称

  • TabTransformer Multiclass classification

数据集内容

  • 攻击类型映射:数据集包含多种攻击类型,每种攻击类型都有一个对应的分类标签。例如,back 对应 dosbuffer_overflow 对应 u2r 等。
  • 特征列:数据集包含多个特征列,如 duration, protocol_type, service, flag, src_bytes, dst_bytes 等,共计42个特征列。

数据集结构

  • 训练集:从 data/KDDTrain+.csv 文件中读取,包含125973条记录。
  • 测试集:从 data/KDDTest+.csv 文件中读取,包含22543条记录。

数据预处理

  • 删除不必要的特征:从训练集和测试集中删除了名为 difficulty_degree 的特征。
  • 标签映射:将原始的攻击类型标签映射到新的分类标签。

数据集分布

  • 训练集分布:包含 dos, normal, probe, r2l, u2r 五种类别,分别有45927, 67343, 11656, 995, 52条记录。
  • 测试集分布:包含 dos, normal, probe, r2l, u2r 五种类别,分别有7638, 9710, 2421, 2574, 200条记录。

数据集用途

  • 多类别攻击检测:使用TabTransformer模型进行多类别攻击检测。
AI搜集汇总
数据集介绍
main_image_url
构建方式
NSL-KDD数据集是基于KDD Cup 1999数据集的改进版本,旨在解决原始数据集中存在的冗余和偏差问题。该数据集通过对原始数据进行筛选和重新采样,减少了重复记录,并确保了训练集和测试集之间的平衡性。数据集的构建过程包括对网络流量特征的提取和分类,涵盖了多种攻击类型和正常流量。通过这种方式,NSL-KDD数据集为网络入侵检测研究提供了一个更为可靠和高效的基准。
特点
NSL-KDD数据集包含了41个网络流量特征,涵盖了连接的基本属性、内容特征以及流量统计信息。这些特征被用于区分正常流量和不同类型的网络攻击,如DoS、Probe、R2L和U2R等。数据集的特点在于其多样性和代表性,能够有效模拟真实网络环境中的攻击场景。此外,数据集的标签系统将攻击类型进行了分类,便于研究者进行多类别分类任务的分析和评估。
使用方法
NSL-KDD数据集的使用方法主要包括数据预处理、特征工程和模型训练。首先,用户可以通过加载CSV文件获取训练集和测试集,并对数据进行清洗和标准化处理。接着,利用特征工程方法提取关键特征,并结合机器学习或深度学习模型进行训练。数据集的标签信息可用于监督学习任务,帮助模型识别不同类型的网络攻击。最后,用户可以通过评估模型的性能,如准确率、召回率等指标,来验证其在网络入侵检测中的有效性。
背景与挑战
背景概述
NSL-KDD数据集是网络安全领域中的一个重要基准数据集,主要用于入侵检测系统的研究与评估。该数据集基于1999年发布的KDD Cup 1999数据集,由加拿大国防研究与发展机构(DRDC)的研究人员创建,旨在解决网络流量中的异常检测问题。NSL-KDD数据集通过去除冗余数据和平衡类别分布,显著提升了数据质量,成为入侵检测算法性能评估的标准工具。其核心研究问题在于如何通过机器学习方法有效识别网络流量中的攻击行为,涵盖多种攻击类型,如拒绝服务攻击(DoS)、远程到本地攻击(R2L)等。该数据集对网络安全领域的研究产生了深远影响,推动了入侵检测技术的进步。
当前挑战
NSL-KDD数据集在解决入侵检测问题时面临多重挑战。首先,网络攻击类型多样且不断演化,数据集中的攻击类别分布不均衡,导致模型在少数类攻击上的检测效果较差。其次,网络流量数据具有高维性和复杂性,特征之间的相关性难以捕捉,增加了模型训练的难度。在数据构建过程中,研究人员需处理原始数据中的噪声和冗余信息,同时确保数据集的代表性和实用性。此外,随着网络环境的动态变化,现有数据集可能无法完全反映最新的攻击模式,限制了模型的泛化能力。这些挑战促使研究者不断探索更高效的预处理方法和先进的机器学习算法,以提升入侵检测系统的性能。
常用场景
经典使用场景
NSL-KDD数据集作为网络入侵检测领域的经典数据集,广泛用于评估和验证各种入侵检测算法的性能。其包含了多种网络攻击类型,如DoS、Probe、R2L和U2R等,能够模拟真实网络环境中的复杂攻击场景。通过该数据集,研究人员可以训练和测试机器学习模型,以识别和分类不同类型的网络攻击。
解决学术问题
NSL-KDD数据集解决了网络入侵检测领域中的多个关键学术问题。首先,它提供了丰富的攻击类型和正常流量数据,使得研究人员能够深入分析不同攻击的特征。其次,该数据集通过去除冗余数据和平衡样本分布,有效缓解了数据不平衡问题,提升了模型的泛化能力。最后,它为入侵检测算法的性能评估提供了标准化的基准,推动了该领域的研究进展。
衍生相关工作
NSL-KDD数据集衍生了许多经典的研究工作。例如,基于该数据集的研究提出了多种机器学习算法,如支持向量机(SVM)、随机森林(Random Forest)和深度学习模型(如TabTransformer),用于提高入侵检测的准确性和效率。此外,该数据集还被用于研究特征选择、数据预处理和模型优化等技术,为网络入侵检测领域提供了丰富的理论和方法支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录