five

CIC-IDS2017, CSE-CIC-IDS2018, LycoS-IDS2017, LycoS-Unicas-IDS2018

收藏
arXiv2024-02-15 更新2024-06-21 收录
下载链接:
https://github.com/MarcoCantone/LycoS-Unicas-IDS2018
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用了四个不同的网络入侵检测数据集:CIC-IDS2017、CSE-CIC-IDS2018、LycoS-IDS2017和LycoS-Unicas-IDS2018。这些数据集来自不同的网络,用于评估机器学习模型在跨数据集框架下的泛化能力。其中,LycoS-Unicas-IDS2018是本研究的新贡献,基于LycoS-IDS2017对CSE-CIC-IDS2018数据集进行了修正。这些数据集不仅包括原始网络流量,还提供了用于机器学习的特征处理格式,旨在解决网络入侵检测中的实际问题,如攻击识别和异常检测。

This study utilizes four distinct network intrusion detection datasets, namely CIC-IDS2017, CSE-CIC-IDS2018, LycoS-IDS2017, and LycoS-Unicas-IDS2018. All these datasets are sourced from diverse network environments and are employed to evaluate the generalization performance of machine learning models under cross-dataset frameworks. Among them, LycoS-Unicas-IDS2018 is a novel contribution of this study, which is developed by modifying the CSE-CIC-IDS2018 dataset based on LycoS-IDS2017. These datasets not only contain raw network traffic but also provide machine learning-ready feature processing formats, aiming to address practical issues in network intrusion detection such as attack identification and anomaly detection.
提供机构:
卡西诺大学与南部拉齐奥分校电气与信息工程系
创建时间:
2024-02-15
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全研究领域,构建高质量的网络入侵检测数据集对于评估机器学习模型的泛化能力至关重要。CIC-IDS2017和CSE-CIC-IDS2018数据集由加拿大网络安全研究所(CIC)发布,通过模拟真实网络环境中的良性流量和多种网络攻击生成。具体而言,良性流量采用B-Profile系统生成,该系统结合机器学习与统计分析技术,从真实用户行为中提取抽象模式;攻击流量则通过执行多种已知攻击类型(如DoS、DDoS、渗透攻击等)产生。原始网络流量(PCAP格式)经过CICFlowMeter工具处理,提取双向流特征并转化为CSV格式,每个样本包含84个特征,涵盖流量统计、时序和协议属性。为提升数据质量,LycoS-IDS2017和LycoS-Unicas-IDS2018数据集在原始CIC数据集基础上进行了修正:使用LycoStand工具重新提取特征,解决了原始数据中存在的特征重复、计算错误和标签不一致等问题,并对CSE-CIC-IDS2018的标注流程进行了优化,从而增强了数据集的可靠性和一致性。
特点
这些数据集在网络安全研究中具有显著特点,主要体现在多样性和修正性两个方面。多样性表现为数据集覆盖了广泛的攻击类型,包括DoS、DDoS、端口扫描、暴力破解等,且攻击实例在不同数据集中存在部分重叠,为跨数据集泛化研究提供了基础。同时,数据集规模较大,如CSE-CIC-IDS2018包含超过1300万样本,有助于训练复杂的机器学习模型。修正性则体现在LycoS系列数据集对原始CIC数据集的改进:通过重新提取特征和修正标签,减少了特征冗余和标注错误,提升了数据质量。然而,数据集中存在明显的类别不平衡问题,良性流量占比超过70%,而某些攻击类别样本稀少,这可能影响模型对少数类攻击的检测能力。此外,攻击样本在不同数据集中的分布存在差异,部分攻击的特征表示较为单一,限制了模型在跨网络环境中的泛化性能。
使用方法
在网络安全研究中,这些数据集主要用于评估基于机器学习的网络入侵检测系统(NIDS)的泛化能力。典型使用方法包括:首先,进行数据集内实验,将单个数据集按比例划分为训练集和测试集,以评估模型在相同网络环境下的性能;其次,进行跨数据集实验,使用一个数据集训练模型,并在另一个数据集上测试,以模拟真实场景中模型部署到未知网络时的泛化表现。研究过程中,常采用多种机器学习分类器(如线性判别分析、决策树、随机森林和XGBoost)进行训练,并应用特征选择技术(如mRMR)来优化模型输入,减少过拟合。性能评估指标包括马修斯相关系数(MCC)、F1分数和AUROC,这些指标能有效处理类别不平衡问题。此外,数据集还可用于单攻击分析,通过单独训练特定攻击类别来探究模型对不同攻击类型的泛化差异,以及通过可视化方法(如核密度估计)分析特征空间分布,从而深入理解数据异质性对模型性能的影响。
背景与挑战
背景概述
随着网络互联的迅猛扩张,网络入侵检测系统(NIDS)在网络安全领域扮演着至关重要的角色。CIC-IDS2017、CSE-CIC-IDS2018、LycoS-IDS2017及LycoS-Unicas-IDS2018等数据集由加拿大网络安全研究所(CIC)及意大利卡西诺大学等机构于2017至2018年间相继构建,旨在为基于机器学习的NIDS提供标准化的评估基准。这些数据集通过模拟真实网络环境中的良性流量与多种网络攻击,如拒绝服务(DoS)、分布式拒绝服务(DDoS)及端口扫描等,致力于解决网络入侵检测中的模式识别与异常流量分类问题。其广泛采用显著推动了机器学习在网络安全领域的应用研究,为模型训练与性能比较提供了关键数据支撑。
当前挑战
在领域问题层面,这些数据集旨在应对网络入侵检测中的跨数据集泛化挑战,即模型在训练数据集上表现优异,但在未见过的网络数据上分类准确率接近随机水平,揭示了现有数据在攻击模式多样性、网络拓扑异质性及流量分布代表性方面的不足。构建过程中,数据集面临多重挑战:原始数据存在特征重复计算、协议误检、标签错误及流量流构建不一致等问题,如CIC-IDS2017中特征冗余与标注缺陷;后续修正版本虽通过工具如LycoStand进行特征重提取与标签校正,但仍受限于攻击实例的单一性、类别不平衡及样本冗余,导致数据变异度有限,难以全面反映真实网络攻击的复杂分布。
常用场景
经典使用场景
在网络安全研究领域,CIC-IDS2017、CSE-CIC-IDS2018、LycoS-IDS2017及LycoS-Unicas-IDS2018数据集常被用于评估基于机器学习的网络入侵检测系统(NIDS)的跨数据集泛化能力。这些数据集通过模拟真实网络环境中的良性流量与多种攻击流量,为研究者提供了丰富的网络流特征数据。经典使用场景包括训练和测试多种机器学习分类器,如线性判别分析、决策树、随机森林和XGBoost,以探索模型在相同数据集内部(within-dataset)与不同数据集之间(cross-dataset)的性能差异。这种实验设计旨在揭示模型在面对异构网络数据时的适应性与局限性,为构建鲁棒的入侵检测系统奠定基础。
实际应用
在实际应用层面,这些数据集被广泛用于开发和验证企业级网络入侵检测系统。通过提供多样化的攻击类型(如DoS、DDoS、端口扫描等)和大量网络流特征,它们支持安全团队训练模型以实时监控网络流量,识别异常行为。然而,跨数据集泛化能力的不足表明,仅依赖单一数据集训练的模型难以直接部署到不同网络架构或动态威胁环境中。因此,实际应用中常需结合联邦学习或多源数据融合策略,以增强系统对未知网络场景的适应能力,确保在复杂网络环境中维持高检测率与低误报率。
衍生相关工作
基于这些数据集,学术界衍生出多项经典研究工作,主要集中在泛化能力分析与数据集质量改进方面。例如,D’Hooge等人利用CIC数据集评估了跨数据集场景下分类器的性能衰减;Verkerken等人通过无监督学习模型探索了泛化挑战;Rosay等人则开发了LycoS-IDS2017修正数据集,以解决原始数据中的特征计算错误和标签不一致问题。此外,联邦学习框架被引入以提升模型在异构网络间的泛化能力,如Popoola等人利用多数据集训练展示了性能改进。这些工作共同推动了对NIDS泛化问题的深入理解,并促进了更可靠数据集构建方法的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作