CICIDS2017, NewCICIDS, HIKARI|网络安全数据集|机器学习数据集

arXiv2024-02-26 更新2024-08-06 收录

网络安全

机器学习

下载链接：

http://arxiv.org/abs/2402.16912v1

下载链接

链接失效反馈

资源简介：

本研究涉及三个标准数据集：CICIDS2017、NewCICIDS和HIKARI，用于评估企业网络入侵检测中机器学习模型的鲁棒性。CICIDS2017包含2017年企业计算机网络中常见的网络攻击，共有872105条数据。NewCICIDS是CICIDS2017的修正版，数据量减少，包含638432条良性样本和106538条恶意样本。HIKARI数据集则包含更近期的网络攻击数据，记录于2021年，共有214904条良性样本和13349条恶意样本。这些数据集通过特定的数据预处理步骤，选择与时间相关的特征，用于训练和评估不同的机器学习模型，如随机森林、极端梯度提升等，以提高对抗性网络攻击的检测能力，确保企业网络安全。

提供机构：

智能工程与计算高级创新与发展研究组(GECAD)

创建时间：

2024-02-26

AI搜集汇总

数据集介绍

构建方式

CICIDS2017, NewCICIDS, HIKARI数据集的构建基于企业网络入侵检测的需求，采用标准化的网络流量数据。这些数据集通过CICFlowMeter工具从网络流量中提取，并转换为表格格式。数据预处理阶段包括创建分层训练集和验证集，以及选择相关且无偏见的特征，特别是时间相关的特征。此外，为了评估模型的鲁棒性，使用Adaptative Perturbation Pattern Method (A2PM)生成对抗性训练集和对抗性验证集，以模拟网络攻击。

特点

CICIDS2017, NewCICIDS, HIKARI数据集的特点在于它们包含了企业网络中的常见网络攻击，如探测、暴力破解和拒绝服务攻击。这些数据集提供了真实世界的网络流量数据，包括正常操作流量和恶意流量。此外，NewCICIDS是CICIDS2017的一个修正版本，提供了更真实的网络流量。HIKARI数据集包含了更近期的网络攻击，特别是针对加密流量的应用层攻击。这些数据集的特点使得它们成为评估和比较不同机器学习模型在网络入侵检测中鲁棒性的理想选择。

使用方法

CICIDS2017, NewCICIDS, HIKARI数据集的使用方法包括将数据集分为训练集和验证集，并使用选定的特征进行模型训练。这些数据集可用于训练和评估多种决策树集成模型，如随机森林、极端梯度提升、轻量级梯度提升机和解释性提升机。为了评估模型的鲁棒性，还使用A2PM生成对抗性训练集和对抗性验证集。这些数据集的使用有助于研究人员和开发者了解不同模型在不同网络攻击场景下的表现，并为构建更可靠的网络入侵检测系统提供参考。

背景与挑战

背景概述

随着网络攻击技术的日益复杂化，提高机器学习（ML）模型在企业网络入侵检测中的鲁棒性变得至关重要。为了可靠地比较不同ML模型在网络安全领域的鲁棒性，需要在标准化条件下进行评估。CICIDS2017数据集是一个常用的基准数据集，包含多种网络攻击类型，但其在攻击向量中存在一些不一致性。NewCICIDS是CICIDS2017的修正版本，提供了更真实的网络流量数据。HIKARI数据集则包含了更近期的网络攻击，并针对加密流量中的应用层攻击进行了研究。这些数据集为研究人员提供了进行网络入侵检测模型评估和比较的平台，对网络安全领域的发展产生了重要影响。

当前挑战

CICIDS2017、NewCICIDS和HIKARI数据集在网络入侵检测领域面临的主要挑战包括：1)攻击者可能会设计出能够规避检测的对抗性攻击，这些攻击利用了ML模型的漏洞；2)现有的网络入侵检测模型在对抗性攻击下鲁棒性不足，特别是在面对最新的网络攻击时；3)如何在不影响模型在正常网络流量中泛化能力的前提下，提高模型对对抗性攻击的鲁棒性。这些挑战要求研究人员开发出更先进的模型训练方法和对抗性防御策略，以确保网络安全系统的有效性和可靠性。

常用场景

经典使用场景

CICIDS2017, NewCICIDS, HIKARI数据集在网络安全领域，特别是在企业网络入侵检测方面，具有重要的应用价值。它们被广泛用于训练和评估机器学习模型，以识别和分类网络流量中的异常行为，从而帮助企业防御日益复杂的网络攻击。

解决学术问题

CICIDS2017, NewCICIDS, HIKARI数据集为解决网络安全领域中的一个重要问题——如何提高机器学习模型在企业网络入侵检测中的鲁棒性——提供了重要支持。通过在标准化的条件下评估不同机器学习模型的鲁棒性，这些数据集帮助研究人员理解了不同模型在面对对抗性攻击时的表现，并为提高模型的鲁棒性提供了重要的数据基础。

衍生相关工作

CICIDS2017, NewCICIDS, HIKARI数据集的发布，推动了网络安全领域的研究。基于这些数据集，研究人员开展了大量的研究工作，包括对抗性攻击的防御策略、机器学习模型的鲁棒性评估等。这些研究成果为提高企业网络入侵检测系统的性能提供了重要的理论和技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务，涉及生物医学领域。数据集包含两个配置：text-corpus和question-answer-passages，分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集，并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集，旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型（如RGB、深度、骨骼）和来自不同国家的数据，用于支持手语识别和翻译技术的研究。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录