CICIDS-2017, NFS-2023-nTE, NFS-2023-TE
收藏arXiv2024-01-30 更新2024-06-21 收录
下载链接:
https://www.unb.ca/cic/datasets/ids-2017.html
下载链接
链接失效反馈官方服务:
资源简介:
CICIDS-2017数据集是一个包含标记网络流量模式的全面集合,涵盖了从2017年7月3日至7日五天内的正常活动和模拟恶意攻击。该数据集通过CICFlowMeter工具生成,提供了丰富的流量记录和相应的标签,是多种机器学习异常检测方法的基本测试平台。NFS-2023-nTE和NFS-2023-TE是使用NFStream处理后的新版本,旨在通过改进流到期和标签方法来提高数据集的质量和可靠性。这些数据集的应用领域主要集中在网络安全研究,特别是在网络流量异常检测方面,以解决数据集中的不一致性和提高机器学习模型的性能。
The CICIDS-2017 dataset is a comprehensive collection of labeled network traffic patterns, covering normal activities and simulated malicious attacks over a five-day period from July 3 to July 7, 2017. Generated using the CICFlowMeter tool, this dataset provides abundant traffic records and corresponding labels, serving as a fundamental testbed for various machine learning-based anomaly detection methods. NFS-2023-nTE and NFS-2023-TE are revised versions processed with NFStream, which aim to improve the quality and reliability of the datasets by optimizing flow expiration and labeling methodologies. The application fields of these datasets are mainly focused on cybersecurity research, particularly in network traffic anomaly detection, to resolve dataset inconsistencies and enhance the performance of machine learning models.
提供机构:
布达佩斯理工大学电气工程与信息学院网络系统与服务系
创建时间:
2024-01-30
搜集汇总
数据集介绍

构建方式
该数据集采用NFStream工具对CICIDS-2017数据集进行重构,旨在解决原始数据集中存在的流量超时机制和基于TCP标志的流量终止机制等问题。NFStream工具在处理PCAP文件时,能够实现更为精准的流量特征计算和流量标签分配,从而提高数据集的完整性和可靠性。在构建过程中,研究者们针对CICIDS-2017数据集的PCAP文件进行了预处理,包括去除重复数据包和重新排序数据包,以确保流量分析的准确性。此外,研究者们还利用NFStream工具的NFlow结构和NFPlugin组件,实现了自定义的TCP流量终止策略和流量标签分配方法,从而更好地模拟现实世界中的网络流量特征。
使用方法
研究者可以使用NFStream工具和提供的脚本,根据自身需求对CICIDS-2017数据集的PCAP文件进行预处理和重构,生成NFS-2023-nTE和NFS-2023-TE数据集。在使用这些数据集进行机器学习模型训练和评估时,研究者可以根据需要选择不同的特征子集,例如五元组特征、流量统计特征等。此外,研究者还可以利用NFStream工具的NFPlugin组件,开发自定义的流量特征计算和流量标签分配方法,以满足特定研究需求。在使用过程中,研究者应注意数据集的局限性,例如无法完全模拟实时网络流量特征,以及未考虑流量样本之间的相互依赖性等。
背景与挑战
背景概述
网络流量异常检测是网络安全领域的关键技术之一,CICIDS-2017数据集作为该领域的重要资源,自2017年创建以来,为开发网络攻击检测和预测方法提供了基础。该数据集由加拿大卡尔加里大学的网络入侵检测系统实验室创建,包含了良性活动和模拟恶意攻击的网络流量模式,旨在为机器学习模型提供训练和测试数据。尽管CICIDS-2017数据集在网络安全研究中得到了广泛应用,但其数据完整性问题一直备受关注,例如TCP标志过期机制和流量记录中的异常值等。为了解决这些问题,研究人员对CICIDS-2017数据集进行了多次改进,包括WTMC-2021和CRiSIS-2022等版本,以提高数据集的准确性和可靠性。
当前挑战
CICIDS-2017数据集及相关改进版本在网络安全研究中面临的主要挑战包括:1)数据完整性问题,如TCP标志过期机制和流量记录中的异常值等,可能影响模型的性能和可靠性;2)数据集的实时应用性有限,无法完全模拟现实世界网络环境中的动态流量信息,影响模型在实际场景中的表现;3)现有数据集主要针对单一流量进行分析,未充分考虑不同流量样本之间的相互依赖性,限制了更复杂机器学习算法的应用。未来研究需要进一步探索数据集的改进方法,提高数据集的准确性和可靠性,并开发更先进的机器学习算法,以应对网络安全领域不断变化的需求。
常用场景
经典使用场景
CICIDS-2017, NFS-2023-nTE, NFS-2023-TE数据集主要用于网络安全领域,特别是网络流量异常检测。这些数据集包含了各种网络流量模式,包括良性活动和模拟的恶意攻击,如DoS/DDoS、端口扫描、暴力破解和渗透事件。研究人员可以利用这些数据集来训练和评估机器学习模型,以检测和识别网络中的异常行为,从而提高网络安全防护能力。
解决学术问题
CICIDS-2017, NFS-2023-nTE, NFS-2023-TE数据集解决了网络流量数据集中数据完整性问题。现有的网络流量数据集存在数据不一致、错误标签、特征提取不准确等问题,这些问题可能会影响机器学习模型的性能和可靠性。CICIDS-2017, NFS-2023-nTE, NFS-2023-TE数据集通过使用NFStream工具进行处理,确保了数据集的方法论严谨性和数据完整性,从而为网络安全研究提供了更可靠的数据基础。
实际应用
CICIDS-2017, NFS-2023-nTE, NFS-2023-TE数据集在实际应用中具有广泛的应用前景。例如,它们可以用于构建入侵检测系统,以实时监控网络流量并识别潜在的恶意攻击。此外,这些数据集还可以用于网络安全培训和教育,帮助网络安全专业人员了解和应对各种网络威胁。
数据集最近研究
最新研究方向
在网络安全领域,网络流量异常检测是关键工具。本研究针对网络流量数据集的数据完整性问题,引入了经过NFStream处理的CICIDS-2017数据集的两个改进版本,NFS-2023-nTE和NFS-2023-TE。研究对比了随机森林算法在原始CICIDS-2017数据集及其改进版本WTMC-2021、CRiSIS-2022和NFStream生成的数据集上的性能。研究发现,随机森林模型在不同数据集质量下表现出卓越的鲁棒性,引发了关于数据完整性对机器学习有效性的实际影响的深入讨论。本研究强调了在网络安全研究中持续改进数据集生成方法和严谨性的重要性。
相关研究论文
- 1Evaluating ML-Based Anomaly Detection Across Datasets of Varied Integrity: A Case Study布达佩斯理工大学电气工程与信息学院网络系统与服务系 · 2024年
以上内容由遇见数据集搜集并总结生成



