five

Unified Multimodal NIDS Dataset|网络入侵检测数据集|多模态数据数据集

收藏
github2024-10-01 更新2024-10-02 收录
网络入侵检测
多模态数据
下载链接:
https://github.com/SyedWaliAbbas/UM-NIDS-Tool
下载链接
链接失效反馈
资源简介:
统一多模态网络入侵检测数据集工具通过从原始PCAP文件中提取全面的流、有效载荷和上下文特征,对网络入侵检测数据集进行标准化,确保数据集之间的一致性,并增强基于机器学习的威胁检测和分析。
创建时间:
2024-09-07
原始信息汇总

Unified, Multimodal NIDS Dataset Tool

概述

  • 目的:解决现有网络入侵检测系统(NIDS)数据集在特征集、标签一致性和关键负载及上下文信息方面的差异问题。
  • 功能:提供标准化方法将原始PCAP数据集转换为统一格式,确保特征一致性,并支持跨数据集分析。

数据集覆盖

  • 包含数据集
    • CIC-IDS 2017
    • CIC-IoT 2023
    • UNSW-NB15
    • DDoS-specific dataset
  • 扩展性:支持用户处理和添加新数据集,将原始PCAP文件转换为统一格式。

工具使用指南

步骤1:处理PCAP文件

  • 命令: python from pcap_process.flow_payload import * pcap_process(dataset_folder=folder_name, window_size, vulnerable_ports_list, http_ports_list, idle_timeout, active_timeout, flowlimit)

  • 参数

    • 滚动窗口大小
    • 监控端口列表
    • 流终止条件(基于活动超时、空闲超时或数据包限制)

步骤2:准备预标记的CSV

  • 要求
    • 时间戳列
    • 流持续时间列
    • 源/目标IP和端口列
  • 命令: python from label.parallel_label import * meta_data = extract_time_ranges_from_csvs(folders, timestamp_column=timestamp, timezone=None, batch_size=5)

步骤3:标记处理后的CSV

  • 命令: python label_csvs(input_folder, meta_data, output_folder="labeled_csv", timezone=Canada/Atlantic, num_workers=2, unit=ms, timestamp_col=timestamp, flowduration_col=flowduration, label_col=label)

  • 参数

    • 输入文件夹
    • 元数据
    • 输出文件夹
    • 时区
    • 并行工作数

示例使用

  • Jupyter Notebook示例
    • 处理UM-NIDS数据集中四个数据集的示例
    • 基于负载的NIDS处理示例
    • 在欠采样版本UM-NIDS数据集上训练和测试分类器的示例
AI搜集汇总
数据集介绍
main_image_url
构建方式
在网络入侵检测系统(NIDS)领域,现有数据集普遍存在特征不一致、标签不统一及关键负载和上下文信息缺失的问题。为解决这些问题,Unified Multimodal NIDS Dataset通过提供一种标准化的方法,将任意原始PCAP数据集转换为具有一致特征的统一格式。该工具不仅提取了源和目标IP、端口、协议、数据包计数和流持续时间等关键流级特征,还整合了详细负载数据,这在传统数据集中常被忽略。此外,工具通过滑动时间窗口生成上下文特征,捕捉网络流量的历史和时间模式,这对于检测依赖于特定负载特征的攻击尤为重要。
特点
Unified Multimodal NIDS Dataset的显著特点在于其多模态数据的整合,包括流级特征、负载数据和上下文特征的全面覆盖。这种多模态数据的结合,使得数据集在识别依赖于特定负载特征的攻击,如SQL注入或恶意软件,以及检测高级持续威胁(APT)方面具有显著优势。此外,数据集支持用户通过处理和添加新的数据集来扩展,确保其能够适应不断发展的研究需求。
使用方法
使用Unified Multimodal NIDS Dataset时,首先需处理原始PCAP文件,将其转换为包含负载内容、统计流特征和基于时间窗口的上下文特征的CSV格式。接着,准备预标签的CSV文件,并使用提取的元数据进行标签处理。最后,通过指定输入输出文件夹、时区及并行工作数等参数,完成数据集的标签化。数据集还提供了示例Jupyter笔记本文件,展示了如何处理和评估数据集,以及在不同机器学习场景中的应用。
背景与挑战
背景概述
在网络入侵检测系统(NIDS)领域,现有的公开数据集普遍存在特征集不一致、标签不统一以及缺乏关键的有效载荷和上下文信息等问题,这严重限制了基于机器学习的模型的有效性。为解决这一问题,Unified Multimodal NIDS Dataset于2024年由Syed Wali等研究人员创建,旨在提供一个标准化的方法,将任何原始PCAP数据集转换为具有一致特征的统一格式。该数据集不仅提取了关键的流级特征,如源和目标IP、端口、协议、数据包计数和流持续时间,还整合了详细的有效载荷数据和基于滑动时间窗口的上下文特征,这对于识别依赖特定有效载荷特征的攻击(如SQL注入或恶意软件)至关重要。此外,该数据集还支持用户处理和添加新的数据集,确保数据集能够随着研究需求的发展而扩展。
当前挑战
Unified Multimodal NIDS Dataset在构建过程中面临多项挑战。首先,如何从多样化的原始PCAP文件中提取一致且全面的特征集,确保数据集的兼容性和跨数据集分析的潜力,是一个复杂的问题。其次,整合有效载荷数据和上下文特征,以捕捉网络流量的历史和时间模式,对于检测高级持续威胁(APT)至关重要,但这也增加了数据处理的复杂性和计算资源的消耗。此外,数据集的扩展性要求工具能够灵活地处理和转换新的数据集,这需要设计一个高效且用户友好的处理流程。最后,确保数据集的标签一致性和准确性,以便于机器学习模型的训练和评估,也是一个持续的挑战。
常用场景
经典使用场景
在网络入侵检测系统(NIDS)领域,Unified Multimodal NIDS Dataset 数据集的经典使用场景主要集中在通过标准化和多模态特征提取来提升入侵检测模型的性能。该数据集通过整合流量级别特征、详细负载数据以及基于滑动时间窗口的上下文特征,为研究人员提供了一个统一的格式,从而能够更有效地识别依赖于特定负载特征的攻击,如SQL注入或恶意软件。此外,该数据集还支持对高级持续性威胁(APT)的检测,其中时间序列和数据包的顺序起着关键作用。
实际应用
在实际应用中,Unified Multimodal NIDS Dataset 数据集被广泛用于企业和组织的安全运营中心(SOC),以增强其网络入侵检测能力。通过集成详细的负载数据和上下文特征,该数据集帮助安全分析师更准确地识别和响应网络威胁。此外,数据集的标准化格式和灵活性使其能够适应不断变化的网络环境,确保检测系统能够持续有效地运行,从而保护关键信息资产免受各种网络攻击。
衍生相关工作
基于 Unified Multimodal NIDS Dataset 数据集,研究者们开发了多种先进的网络入侵检测模型。例如,一些研究工作利用该数据集的负载和上下文特征,提出了基于深度学习的入侵检测系统,显著提高了检测精度和响应速度。此外,该数据集还激发了关于多模态数据融合的研究,探索如何更有效地整合不同类型的网络数据以提升检测性能。这些衍生工作不仅推动了网络安全的学术研究,也为实际应用提供了强有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

Project Gutenberg

Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。

www.gutenberg.org 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录