CICIDS2017, NewCICIDS, HIKARI

Name: CICIDS2017, NewCICIDS, HIKARI
Creator: 智能工程与计算高级创新与发展研究组(GECAD)
Published: 2024-02-26 00:45:39
License: 暂无描述

arXiv2024-02-26 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.16912v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究涉及三个标准数据集：CICIDS2017、NewCICIDS和HIKARI，用于评估企业网络入侵检测中机器学习模型的鲁棒性。CICIDS2017包含2017年企业计算机网络中常见的网络攻击，共有872105条数据。NewCICIDS是CICIDS2017的修正版，数据量减少，包含638432条良性样本和106538条恶意样本。HIKARI数据集则包含更近期的网络攻击数据，记录于2021年，共有214904条良性样本和13349条恶意样本。这些数据集通过特定的数据预处理步骤，选择与时间相关的特征，用于训练和评估不同的机器学习模型，如随机森林、极端梯度提升等，以提高对抗性网络攻击的检测能力，确保企业网络安全。

This study employs three standard datasets—CICIDS2017, NewCICIDS, and HIKARI—to evaluate the robustness of machine learning models for enterprise network intrusion detection. CICIDS2017 captures common network attacks occurring in enterprise computer networks in 2017, with a total of 872,105 data records. NewCICIDS is a revised version of CICIDS2017 with a reduced dataset size, comprising 638,432 benign samples and 106,538 malicious samples. The HIKARI dataset contains more up-to-date network attack data recorded in 2021, including 214,904 benign samples and 13,349 malicious samples. These datasets undergo targeted data preprocessing procedures, where time-related features are selected for training and evaluating various machine learning models such as Random Forest and Extreme Gradient Boosting, to enhance the detection capability against adversarial network attacks and safeguard enterprise network security.

提供机构：

智能工程与计算高级创新与发展研究组(GECAD)

创建时间：

2024-02-26

搜集汇总

数据集介绍

构建方式

CICIDS2017, NewCICIDS, HIKARI数据集的构建基于企业网络入侵检测的需求，采用标准化的网络流量数据。这些数据集通过CICFlowMeter工具从网络流量中提取，并转换为表格格式。数据预处理阶段包括创建分层训练集和验证集，以及选择相关且无偏见的特征，特别是时间相关的特征。此外，为了评估模型的鲁棒性，使用Adaptative Perturbation Pattern Method (A2PM)生成对抗性训练集和对抗性验证集，以模拟网络攻击。

特点

CICIDS2017, NewCICIDS, HIKARI数据集的特点在于它们包含了企业网络中的常见网络攻击，如探测、暴力破解和拒绝服务攻击。这些数据集提供了真实世界的网络流量数据，包括正常操作流量和恶意流量。此外，NewCICIDS是CICIDS2017的一个修正版本，提供了更真实的网络流量。HIKARI数据集包含了更近期的网络攻击，特别是针对加密流量的应用层攻击。这些数据集的特点使得它们成为评估和比较不同机器学习模型在网络入侵检测中鲁棒性的理想选择。

使用方法

CICIDS2017, NewCICIDS, HIKARI数据集的使用方法包括将数据集分为训练集和验证集，并使用选定的特征进行模型训练。这些数据集可用于训练和评估多种决策树集成模型，如随机森林、极端梯度提升、轻量级梯度提升机和解释性提升机。为了评估模型的鲁棒性，还使用A2PM生成对抗性训练集和对抗性验证集。这些数据集的使用有助于研究人员和开发者了解不同模型在不同网络攻击场景下的表现，并为构建更可靠的网络入侵检测系统提供参考。

背景与挑战

背景概述

随着网络攻击技术的日益复杂化，提高机器学习（ML）模型在企业网络入侵检测中的鲁棒性变得至关重要。为了可靠地比较不同ML模型在网络安全领域的鲁棒性，需要在标准化条件下进行评估。CICIDS2017数据集是一个常用的基准数据集，包含多种网络攻击类型，但其在攻击向量中存在一些不一致性。NewCICIDS是CICIDS2017的修正版本，提供了更真实的网络流量数据。HIKARI数据集则包含了更近期的网络攻击，并针对加密流量中的应用层攻击进行了研究。这些数据集为研究人员提供了进行网络入侵检测模型评估和比较的平台，对网络安全领域的发展产生了重要影响。

当前挑战

CICIDS2017、NewCICIDS和HIKARI数据集在网络入侵检测领域面临的主要挑战包括：1)攻击者可能会设计出能够规避检测的对抗性攻击，这些攻击利用了ML模型的漏洞；2)现有的网络入侵检测模型在对抗性攻击下鲁棒性不足，特别是在面对最新的网络攻击时；3)如何在不影响模型在正常网络流量中泛化能力的前提下，提高模型对对抗性攻击的鲁棒性。这些挑战要求研究人员开发出更先进的模型训练方法和对抗性防御策略，以确保网络安全系统的有效性和可靠性。

常用场景

经典使用场景

CICIDS2017, NewCICIDS, HIKARI数据集在网络安全领域，特别是在企业网络入侵检测方面，具有重要的应用价值。它们被广泛用于训练和评估机器学习模型，以识别和分类网络流量中的异常行为，从而帮助企业防御日益复杂的网络攻击。

解决学术问题

CICIDS2017, NewCICIDS, HIKARI数据集为解决网络安全领域中的一个重要问题——如何提高机器学习模型在企业网络入侵检测中的鲁棒性——提供了重要支持。通过在标准化的条件下评估不同机器学习模型的鲁棒性，这些数据集帮助研究人员理解了不同模型在面对对抗性攻击时的表现，并为提高模型的鲁棒性提供了重要的数据基础。

衍生相关工作

CICIDS2017, NewCICIDS, HIKARI数据集的发布，推动了网络安全领域的研究。基于这些数据集，研究人员开展了大量的研究工作，包括对抗性攻击的防御策略、机器学习模型的鲁棒性评估等。这些研究成果为提高企业网络入侵检测系统的性能提供了重要的理论和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集