Unified Multimodal NIDS Dataset

github2024-10-01 更新2024-10-02 收录

下载链接：

https://github.com/SyedWaliAbbas/UM-NIDS-Tool

下载链接

链接失效反馈

官方服务：

资源简介：

统一多模态网络入侵检测数据集工具通过从原始PCAP文件中提取全面的流、有效载荷和上下文特征，对网络入侵检测数据集进行标准化，确保数据集之间的一致性，并增强基于机器学习的威胁检测和分析。

The Unified Multimodal Network Intrusion Detection Dataset Tool standardizes network intrusion detection datasets by extracting comprehensive flow, payload, and contextual features from raw PCAP files, ensuring consistency across datasets, and enhancing machine learning-based threat detection and analysis.

创建时间：

2024-09-07

原始信息汇总

Unified, Multimodal NIDS Dataset Tool

概述

目的：解决现有网络入侵检测系统（NIDS）数据集在特征集、标签一致性和关键负载及上下文信息方面的差异问题。
功能：提供标准化方法将原始PCAP数据集转换为统一格式，确保特征一致性，并支持跨数据集分析。

数据集覆盖

包含数据集：
- CIC-IDS 2017
- CIC-IoT 2023
- UNSW-NB15
- DDoS-specific dataset
扩展性：支持用户处理和添加新数据集，将原始PCAP文件转换为统一格式。

工具使用指南

步骤1：处理PCAP文件

命令： python from pcap_process.flow_payload import * pcap_process(dataset_folder=folder_name, window_size, vulnerable_ports_list, http_ports_list, idle_timeout, active_timeout, flowlimit)
参数：
- 滚动窗口大小
- 监控端口列表
- 流终止条件（基于活动超时、空闲超时或数据包限制）

步骤2：准备预标记的CSV

要求：
- 时间戳列
- 流持续时间列
- 源/目标IP和端口列
命令： python from label.parallel_label import * meta_data = extract_time_ranges_from_csvs(folders, timestamp_column=timestamp, timezone=None, batch_size=5)

步骤3：标记处理后的CSV

命令： python label_csvs(input_folder, meta_data, output_folder="labeled_csv", timezone=Canada/Atlantic, num_workers=2, unit=ms, timestamp_col=timestamp, flowduration_col=flowduration, label_col=label)
参数：
- 输入文件夹
- 元数据
- 输出文件夹
- 时区
- 并行工作数

示例使用

Jupyter Notebook示例：
- 处理UM-NIDS数据集中四个数据集的示例
- 基于负载的NIDS处理示例
- 在欠采样版本UM-NIDS数据集上训练和测试分类器的示例

搜集汇总

数据集介绍

构建方式

在网络入侵检测系统（NIDS）领域，现有数据集普遍存在特征不一致、标签不统一及关键负载和上下文信息缺失的问题。为解决这些问题，Unified Multimodal NIDS Dataset通过提供一种标准化的方法，将任意原始PCAP数据集转换为具有一致特征的统一格式。该工具不仅提取了源和目标IP、端口、协议、数据包计数和流持续时间等关键流级特征，还整合了详细负载数据，这在传统数据集中常被忽略。此外，工具通过滑动时间窗口生成上下文特征，捕捉网络流量的历史和时间模式，这对于检测依赖于特定负载特征的攻击尤为重要。

特点

Unified Multimodal NIDS Dataset的显著特点在于其多模态数据的整合，包括流级特征、负载数据和上下文特征的全面覆盖。这种多模态数据的结合，使得数据集在识别依赖于特定负载特征的攻击，如SQL注入或恶意软件，以及检测高级持续威胁（APT）方面具有显著优势。此外，数据集支持用户通过处理和添加新的数据集来扩展，确保其能够适应不断发展的研究需求。

使用方法

使用Unified Multimodal NIDS Dataset时，首先需处理原始PCAP文件，将其转换为包含负载内容、统计流特征和基于时间窗口的上下文特征的CSV格式。接着，准备预标签的CSV文件，并使用提取的元数据进行标签处理。最后，通过指定输入输出文件夹、时区及并行工作数等参数，完成数据集的标签化。数据集还提供了示例Jupyter笔记本文件，展示了如何处理和评估数据集，以及在不同机器学习场景中的应用。

背景与挑战

背景概述

在网络入侵检测系统（NIDS）领域，现有的公开数据集普遍存在特征集不一致、标签不统一以及缺乏关键的有效载荷和上下文信息等问题，这严重限制了基于机器学习的模型的有效性。为解决这一问题，Unified Multimodal NIDS Dataset于2024年由Syed Wali等研究人员创建，旨在提供一个标准化的方法，将任何原始PCAP数据集转换为具有一致特征的统一格式。该数据集不仅提取了关键的流级特征，如源和目标IP、端口、协议、数据包计数和流持续时间，还整合了详细的有效载荷数据和基于滑动时间窗口的上下文特征，这对于识别依赖特定有效载荷特征的攻击（如SQL注入或恶意软件）至关重要。此外，该数据集还支持用户处理和添加新的数据集，确保数据集能够随着研究需求的发展而扩展。

当前挑战

Unified Multimodal NIDS Dataset在构建过程中面临多项挑战。首先，如何从多样化的原始PCAP文件中提取一致且全面的特征集，确保数据集的兼容性和跨数据集分析的潜力，是一个复杂的问题。其次，整合有效载荷数据和上下文特征，以捕捉网络流量的历史和时间模式，对于检测高级持续威胁（APT）至关重要，但这也增加了数据处理的复杂性和计算资源的消耗。此外，数据集的扩展性要求工具能够灵活地处理和转换新的数据集，这需要设计一个高效且用户友好的处理流程。最后，确保数据集的标签一致性和准确性，以便于机器学习模型的训练和评估，也是一个持续的挑战。

常用场景

经典使用场景

在网络入侵检测系统（NIDS）领域，Unified Multimodal NIDS Dataset 数据集的经典使用场景主要集中在通过标准化和多模态特征提取来提升入侵检测模型的性能。该数据集通过整合流量级别特征、详细负载数据以及基于滑动时间窗口的上下文特征，为研究人员提供了一个统一的格式，从而能够更有效地识别依赖于特定负载特征的攻击，如SQL注入或恶意软件。此外，该数据集还支持对高级持续性威胁（APT）的检测，其中时间序列和数据包的顺序起着关键作用。

实际应用

在实际应用中，Unified Multimodal NIDS Dataset 数据集被广泛用于企业和组织的安全运营中心（SOC），以增强其网络入侵检测能力。通过集成详细的负载数据和上下文特征，该数据集帮助安全分析师更准确地识别和响应网络威胁。此外，数据集的标准化格式和灵活性使其能够适应不断变化的网络环境，确保检测系统能够持续有效地运行，从而保护关键信息资产免受各种网络攻击。

衍生相关工作

基于 Unified Multimodal NIDS Dataset 数据集，研究者们开发了多种先进的网络入侵检测模型。例如，一些研究工作利用该数据集的负载和上下文特征，提出了基于深度学习的入侵检测系统，显著提高了检测精度和响应速度。此外，该数据集还激发了关于多模态数据融合的研究，探索如何更有效地整合不同类型的网络数据以提升检测性能。这些衍生工作不仅推动了网络安全的学术研究，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集