five

NSL-KDD Dataset|网络安全数据集|数据分析数据集

收藏
github2024-04-11 更新2024-05-31 收录
网络安全
数据分析
下载链接:
https://github.com/FransHBotes/NSLKDD-Dataset
下载链接
链接失效反馈
资源简介:
NSL-KDD数据集是为WEKA设计的,包含了对原始Kdd99数据集的轻微修改,以包括攻击类别如DOS、U2R等。数据集中的所有攻击被分割并使用实数值表示。此外,数据集还进行了编码处理,使得某些字段如flag, service和protocol_type现在表示数值而非分类。该数据集适用于算法验证和研究,特别是在网络安全领域。

The NSL-KDD dataset is designed for WEKA and includes minor modifications to the original Kdd99 dataset to incorporate attack categories such as DOS, U2R, etc. All attacks in the dataset are segmented and represented using real values. Additionally, the dataset has undergone encoding processes, transforming certain fields like flag, service, and protocol_type into numerical representations instead of categorical ones. This dataset is suitable for algorithm validation and research, particularly in the field of network security.
创建时间:
2016-10-20
原始信息汇总

NSLKDD-Dataset 数据集概述

数据集描述

  • 名称: NSLKDD-Dataset
  • 目的: 用于WEKA的数据集,适用于算法验证和研究。
  • 修改内容: 对原始数据集进行了轻微修改,包括攻击类别的细分,如DOS、U2R等,并使用实数值进行编码。

数据集特征

  • 攻击类别编码: 在新的字段xAttack中,为不同类型的攻击分配了实数值:
    • dos = [1]
    • u2r = [2]
    • r2l = [3]
    • probe = [4]
    • normal = [5]
    • unknown = [6]
  • 二元分类: 数据集经过处理,xAttack字段用于二元分类,其中0代表正常流量,1代表恶意流量。
  • 数据分割: 数据集分为训练和验证部分,采用20%的分割比例,其中66%用于训练,34%用于验证。
  • 特征编码: 字段flag, service, 和 protocol_type已从类别值转换为数值。

数据集使用建议

  • 研究适用性: 尽管有观点认为NSL-KDD数据集过时且不真实,但在建立研究方法、算法或解决方案时,提供比较结果是必要的。建议在研究中使用此数据集后,再应用于合成数据集。
  • 多类别分类: 如需基于xAttack字段进行多类别分类,可联系数据集提供者。

引用信息

  • 研究论文: Botes, F., Leenen, L., and De La Harpe, R. (2017). Ant Colony Induced Decision Trees for Intrusion Detection. In: 16th European Conference on Cyber Warfare and Security. ACPI, pp.74-83.
  • 原始数据集创建者: M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani, “A Detailed Analysis of the KDD CUP 99 Data Set,” 2009.
AI搜集汇总
数据集介绍
main_image_url
构建方式
NSL-KDD数据集是在原始KDD99数据集的基础上进行轻微修改而构建的,旨在包含攻击类别如DOS、U2R等。该数据集通过将所有攻击类型细分为具体类别,并使用实数值进行编码,增强了数据集的表达能力。具体而言,攻击类型被赋予了新的字段xAttack,其中包含如DOS、U2R、R2L、Probe等分类,并进一步转换为二元分类,以便于模型训练和验证。此外,数据集中的特征如flag、service和protocol_type等也被编码为数值形式,以适应算法处理的需求。
特点
NSL-KDD数据集的主要特点在于其对攻击类型的详细分类和实数值编码,这使得数据集在处理网络入侵检测问题时具有较高的实用性和可操作性。此外,数据集还进行了二元分类的转换,将正常流量与恶意流量区分开来,便于进行二分类任务的训练和评估。数据集的特征选择基于ECCWS 2017的研究成果,确保了数据集在科学研究中的可靠性和有效性。
使用方法
NSL-KDD数据集适用于多种机器学习和数据挖掘算法的研究和验证,特别是在网络入侵检测领域。用户可以通过下载数据集并根据需要进行预处理,如特征编码和数据分割,以适应不同的算法需求。数据集提供了训练和验证数据的比例分割,用户可以根据研究需求调整数据集的使用方式。此外,数据集的二元分类特性使其非常适合用于开发和测试新的入侵检测算法,同时也可以扩展到多分类任务。
背景与挑战
背景概述
NSL-KDD数据集是在KDD Cup 99数据集的基础上进行改进而创建的,主要由Frans Botes、Louise Leenen和Retha De La Harpe等研究人员于2017年提出。该数据集的核心研究问题是如何通过改进的分类方法来提高网络入侵检测的准确性。NSL-KDD数据集通过引入新的攻击类别(如DOS、U2R、R2L和Probe)并将其编码为实数值,旨在解决原始KDD Cup 99数据集中存在的冗余和不平衡问题。该数据集在网络安全领域具有重要影响力,尤其是在入侵检测系统的算法验证和比较研究中,为研究人员提供了一个标准化的基准。
当前挑战
NSL-KDD数据集面临的挑战主要集中在数据集的时效性和现实性上。尽管该数据集在入侵检测领域被广泛使用,但由于其基于较早的网络环境,部分研究人员认为其已不能完全反映当前的网络威胁。此外,数据集在构建过程中遇到的挑战包括如何有效地处理和编码分类特征,以及如何确保数据集的平衡性以避免分类偏差。另一个挑战是如何在保持数据集可比性的同时,确保其能够适应现代网络安全的需求,从而为新算法和方法的验证提供可靠的基础。
常用场景
经典使用场景
NSL-KDD数据集在网络安全领域中被广泛用于入侵检测系统的算法验证与评估。其经典使用场景包括通过训练数据集来构建和优化入侵检测模型,随后利用验证数据集对模型的性能进行评估。该数据集通过将网络流量分为正常和恶意两类,支持二元分类任务,同时也支持多类别分类,如拒绝服务攻击(DOS)、用户到根攻击(U2R)、远程到本地攻击(R2L)和探测攻击(Probe)等。
解决学术问题
NSL-KDD数据集解决了网络安全领域中入侵检测算法的标准化评估问题。通过提供一个结构化的、包含多种攻击类型的数据集,研究者能够在统一的基准上比较不同算法的性能,从而推动入侵检测技术的发展。此外,该数据集的存在使得研究结果更具可重复性和可比性,为学术界提供了一个重要的研究工具。
衍生相关工作
NSL-KDD数据集的发布催生了一系列相关的经典工作,特别是在入侵检测和网络安全领域。例如,Botes等人(2017)在其研究中使用了该数据集来验证基于蚁群诱导决策树的入侵检测模型,展示了其在复杂网络环境中的有效性。此外,许多研究者基于NSL-KDD数据集开发了新的算法和模型,进一步推动了入侵检测技术的前沿研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

jojogo9/freshness

该数据集包含图像及其对应的标签,标签分为6类:腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集,训练集包含10908个样本,测试集包含2705个样本。数据文件存储在指定的路径下。

hugging_face 收录