KDD99CupDataSet
收藏github2020-01-31 更新2024-05-31 收录
下载链接:
https://github.com/ishaak15/KDD99CupDataSet-SVM
下载链接
链接失效反馈官方服务:
资源简介:
KDD99入侵检测数据集,用于网络入侵检测,包含了多种网络攻击和正常流量的数据。
The KDD99 intrusion detection dataset is utilized for network intrusion detection, encompassing data on various network attacks as well as normal traffic.
创建时间:
2019-10-18
原始信息汇总
数据集概述
数据来源与清洗
- 来源: KDD99入侵检测数据集
- 清洗过程:
- 筛选出TCP层的Dos流量和normal流量,使用
get_train_data.py脚本。 - Dos流量标签包括
back., land., neptune.,smurf., teardrop., pod.,normal流量标签为normal.。 - 生成文件:
dos.kddcup.data.corrected.csv。 - 标签类别: normal -> 1, attack -> -1。
- 筛选出TCP层的Dos流量和normal流量,使用
数据统计
- 流量统计:
类别 数量 normal 768670 attack 1074241
特征选择
- 特征重要性排序: 使用随机森林算法。
- 重要特征列表:
特征 重要性 描述 same_srv_rate 0.9824 过去两秒内,与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的百分比 dst_host_serror_rate 0.0106 前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比 count 0.0011 过去两秒内,与当前连接具有相同的目标主机的连接数 srv_count 0.0009 过去两秒内,与当前连接具有相同服务的连接数 dst_host_same_src_port_rate 0.0009 前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比 dst_host_count 0.0008 前100个连接中,与当前连接具有相同目标主机的连接数 dst_host_srv_count 0.0007 前100个连接中,与当前连接具有相同目标主机相同服务的连接数 dst_host_srv_rerror_rate 0.0005 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百分比 dst_host_diff_srv_rate 0.0005 前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比 dst_host_srv_serror_rate 0.0003 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的百分比 dst_host_rerror_rate 0.0003 前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比 srv_rerror_rate 0.0002 过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ” 错误的连接的百分比 dst_host_srv_diff_host_rate 0.0002 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主机的连接所占的百分比 srv_serror_rate 0.0001 过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN” 错误的连接的百分比 srv_diff_host_rate 0.0001 过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接的百分比 serror_rate 0.0001 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN” 错误的连接的百分比 dst_host_same_srv_rate 0.0001 前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比 rerror_rate 0.0 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ” 错误的连接的百分比 diff_srv_rate 0.0 过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百分比
交叉验证结果
-
5折交叉验证结果:
[0.99440018 0.99969071 0.99905041 0.99903956 0.99788378]
搜集汇总
数据集介绍

构建方式
KDD99CupDataSet数据集的构建主要基于原始的KDD99入侵检测数据集,通过筛选TCP层的Dos流量和normal流量,并经过数据清洗和特征选择,最终形成适用于SVM模型的训练数据。具体而言,该数据集首先从原始数据中提取出特定类型的攻击流量(包括back、land、neptune、smurf、teardrop和pod)以及正常流量,随后进行标签转换,并将数据转换为CSV格式,以便于后续处理。
特点
该数据集的特点在于:一是专注于TCP层的流量,聚焦于DoS攻击和正常流量的区分;二是经过特征重要性排序,选取了对于分类最为关键的几个特征,如same_srv_rate、dst_host_serror_rate等,这些特征能够有效地反映出网络连接的行为模式,提高了数据集的质量和后续模型的准确率;三是采用了5折交叉验证,确保了模型的泛化能力和稳健性。
使用方法
使用该数据集时,用户首先需要了解数据集的构成和每个特征的含义。数据集提供了Python脚本,如get_train_data.py等,用于指导用户如何加载数据、进行预处理和特征选择。用户可以按照脚本中定义的步骤依次执行,最后使用crossvalidation.py进行模型训练和评估。此外,数据集还提供了详细的特征描述,便于用户理解和分析模型结果。
背景与挑战
背景概述
KDD99CupDataSet是基于KDD99入侵检测数据集构建的一个数据子集,其核心研究问题聚焦于网络入侵检测,特别是在TCP层对Denial of Service(DoS)攻击与正常流量的区分。该数据集由KDD Cup 1999竞赛提供,旨在促进对入侵检测技术的研究。创建于1999年,该数据集由美国加州大学欧文分校的机器学习与数据挖掘领域专家组织提供,对网络安全领域产生了深远影响,为后续的研究工作提供了宝贵的数据资源。
当前挑战
该数据集在研究领域中面临的挑战主要表现在两个方面:一是领域问题层面的挑战,即如何有效识别网络中的DoS攻击,这对于保障网络安全至关重要;二是数据构建过程中的挑战,包括如何进行高效的数据清洗、特征选择和分类算法的应用。在数据清洗和特征选择方面,需要剔除冗余特征并保留最具区分度的特征,如'same_srv_rate'和'dst_host_serror_rate'等。而在分类算法应用方面,则需要通过如支持向量机(SVM)等算法实现高精度的攻击检测,同时应对数据不平衡等实际问题。
常用场景
经典使用场景
KDD99CupDataSet数据集在网络安全领域中被广泛用于入侵检测的研究。其经典使用场景在于通过机器学习模型,尤其是支持向量机(SVM)模型,对TCP层的数据流进行分类,以区分正常流量和四种拒绝服务(Dos)攻击类型,以及正常流量。数据集经过精心清洗和特征选择,为模型训练提供了高质量的数据基础。
解决学术问题
该数据集解决了如何在海量的网络流量数据中有效识别出攻击流量的问题,对于学术研究而言,它提供了一个标准的数据平台来评估和比较不同机器学习算法在入侵检测任务中的性能。通过使用该数据集,研究者能够探索特征选择和模型调优对检测精度的影响,进而推动网络安全领域的发展。
衍生相关工作
基于KDD99CupDataSet,学术界衍生出了大量相关工作,如改进的机器学习算法、特征选择技术以及模型融合策略等。这些工作不仅提高了入侵检测的准确性和效率,也为后续的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



