Unified Multimodal NIDS Dataset|网络入侵检测数据集|多模态数据数据集
收藏Unified, Multimodal NIDS Dataset Tool
概述
- 目的:解决现有网络入侵检测系统(NIDS)数据集在特征集、标签一致性和关键负载及上下文信息方面的差异问题。
- 功能:提供标准化方法将原始PCAP数据集转换为统一格式,确保特征一致性,并支持跨数据集分析。
数据集覆盖
- 包含数据集:
- CIC-IDS 2017
- CIC-IoT 2023
- UNSW-NB15
- DDoS-specific dataset
- 扩展性:支持用户处理和添加新数据集,将原始PCAP文件转换为统一格式。
工具使用指南
步骤1:处理PCAP文件
-
命令: python from pcap_process.flow_payload import * pcap_process(dataset_folder=folder_name, window_size, vulnerable_ports_list, http_ports_list, idle_timeout, active_timeout, flowlimit)
-
参数:
- 滚动窗口大小
- 监控端口列表
- 流终止条件(基于活动超时、空闲超时或数据包限制)
步骤2:准备预标记的CSV
- 要求:
- 时间戳列
- 流持续时间列
- 源/目标IP和端口列
- 命令: python from label.parallel_label import * meta_data = extract_time_ranges_from_csvs(folders, timestamp_column=timestamp, timezone=None, batch_size=5)
步骤3:标记处理后的CSV
-
命令: python label_csvs(input_folder, meta_data, output_folder="labeled_csv", timezone=Canada/Atlantic, num_workers=2, unit=ms, timestamp_col=timestamp, flowduration_col=flowduration, label_col=label)
-
参数:
- 输入文件夹
- 元数据
- 输出文件夹
- 时区
- 并行工作数
示例使用
- Jupyter Notebook示例:
- 处理UM-NIDS数据集中四个数据集的示例
- 基于负载的NIDS处理示例
- 在欠采样版本UM-NIDS数据集上训练和测试分类器的示例

中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
Project Gutenberg
Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。
www.gutenberg.org 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录