KDD99入侵检测数据集

github2024-04-20 更新2024-05-31 收录

下载链接：

https://github.com/ylfeng250/KDD99CupDataSet-SVM

下载链接

链接失效反馈

官方服务：

资源简介：

KDD99入侵检测数据集是一个用于网络入侵检测的数据集，包含了多种网络攻击和正常流量的数据，用于训练和测试入侵检测系统。

The KDD99 Intrusion Detection Dataset is a dataset designed for network intrusion detection, encompassing a variety of network attacks and normal traffic data, utilized for training and testing intrusion detection systems.

创建时间：

2018-04-12

原始信息汇总

数据集概述

数据来源

数据集基于KDD99入侵检测数据集，原始数据可从此链接获取。

数据清洗与特征选择

清洗过程：通过get_train_data.py筛选出TCP层的Dos流量和normal流量。Dos流量的标签包括back., land., neptune.,smurf., teardrop., pod.，normal流量的标签为normal.。生成的文件为dos.kddcup.data.corrected.csv。
标签类别：normal标记为1，attack标记为-1。
数据统计：normal流量768670条，attack流量1074241条。
特征筛选：使用随机森林对特征重要性进行排序，主要特征包括same_srv_rate、dst_host_serror_rate等。

特征重要性排序

same_srv_rate：重要性0.9824，表示过去两秒内，与当前连接具有相同目标主机的连接中，与当前连接具有相同服务的百分比。
dst_host_serror_rate：重要性0.0106，表示前100个连接中，与当前连接具有相同目标主机的连接中，出现SYN错误的连接所占的百分比。
其他特征的重要性及定义详见README文件。

模型验证

使用5折交叉验证，结果显示模型性能稳定，准确率接近100%。具体结果如下：

[0.99440018 0.99969071 0.99905041 0.99903956 0.99788378]

数据处理步骤

数据处理分为多个步骤，包括数据筛选、特征统计、交叉验证等，具体脚本包括get_train_data.py、get_train_data2.py、get_train_data3.py、wrap_up.py和crossvalidation.py。

搜集汇总

数据集介绍

构建方式

在构建KDD99入侵检测数据集时，研究者首先从原始数据集中筛选出TCP层的Dos流量和正常流量，分别标记为攻击和正常类别。通过脚本`get_train_data.py`，将这些流量数据进行分类，并生成包含768670条正常流量和1074241条攻击流量的文件`dos.kddcup.data.corrected.csv`。随后，利用`wrap_up.py`对数据进行统计特征筛选，并通过随机森林算法对特征重要性进行排序，最终保留了具有高重要性的特征，如`same_srv_rate`等。

特点

KDD99入侵检测数据集的显著特点在于其数据清洗和特征选择过程的严谨性。数据集不仅包含了大量的攻击流量和正常流量，还通过随机森林算法对特征进行了重要性排序，确保了数据集的高质量。此外，数据集的标签明确，便于分类任务的进行，且经过5折交叉验证，结果显示模型具有较高的准确性，进一步验证了数据集的可靠性。

使用方法

KDD99入侵检测数据集可广泛应用于网络安全领域的入侵检测系统开发与评估。使用者可以通过加载`dos.kddcup.data.corrected.csv`文件，利用筛选后的特征进行模型训练。数据集提供了详细的特征说明，便于用户理解和选择合适的特征。此外，数据集还提供了交叉验证脚本`crossvalidation.py`，用户可以利用该脚本进行模型性能的评估，确保模型的泛化能力。

背景与挑战

背景概述

KDD99入侵检测数据集，源自1999年KDD杯竞赛，由美国空军研究实验室和加州大学欧文分校共同发布。该数据集旨在解决网络入侵检测的核心问题，即通过分析网络流量数据，识别和分类各种网络攻击行为。其主要研究人员包括Sal Stolfo和Stuart J. Russell等，数据集的发布对网络安全领域产生了深远影响，成为入侵检测系统研究的重要基准。

当前挑战

KDD99入侵检测数据集在构建过程中面临多项挑战。首先，数据集包含大量复杂的网络流量特征，如何从中筛选出最具代表性的特征以提高检测效率是一个关键问题。其次，数据集中的攻击类型多样且复杂，区分正常流量与攻击流量需要高精度的分类算法。此外，数据集的规模庞大，处理和分析这些数据需要高效的计算资源和算法支持。最后，随着网络环境的不断变化，如何保持模型的实时性和适应性也是一个重要挑战。

常用场景

经典使用场景

KDD99入侵检测数据集在网络安全领域中被广泛应用于入侵检测系统的开发与评估。该数据集通过模拟网络流量中的正常与异常行为，特别是针对TCP层的拒绝服务攻击（DoS）和正常流量，为研究者提供了一个标准化的测试平台。通过分析数据集中的特征，研究者可以训练和验证各种机器学习模型，如支持向量机（SVM），以识别和分类网络中的异常流量，从而提升网络的安全性和稳定性。

解决学术问题

KDD99入侵检测数据集解决了网络安全领域中关于异常检测和分类的核心问题。该数据集通过提供详细的网络流量特征和标签，帮助研究者开发和验证高效的入侵检测算法。其重要性在于，它不仅为学术界提供了一个标准化的实验平台，还促进了新算法和技术的创新，特别是在处理大规模网络流量和复杂攻击模式方面。通过使用该数据集，研究者能够更好地理解和应对日益复杂的网络安全威胁。

衍生相关工作

KDD99入侵检测数据集的广泛应用催生了许多相关的经典工作。例如，基于该数据集的研究推动了多种机器学习算法在入侵检测中的应用，如支持向量机（SVM）、随机森林和深度学习模型。此外，该数据集还激发了对特征选择和数据预处理的深入研究，以提高模型的准确性和效率。许多后续的研究工作也基于KDD99数据集进行了扩展和改进，进一步推动了网络安全领域的发展。

以上内容由遇见数据集搜集并总结生成