MAWIFlow

Name: MAWIFlow
Creator: 亥姆霍茨大学汉堡人工智能研究所
Published: 2025-06-20 22:51:35
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://github.com/TheLurps/MAWIFlow

下载链接

链接失效反馈

官方服务：

资源简介：

MAWIFlow数据集是基于MAWILab v1.1数据集构建的一个流式基准数据集，旨在为异常检测方法提供真实且可复现的评估。该数据集由来自跨太平洋骨干网络的流量样本组成，时间跨度包括2011年、2016年和2021年。数据集的创建过程涉及从原始数据包捕获中提取流表示，并保留MAWILab的原始异常标签。该数据集的创建旨在解决网络入侵检测中传统方法在应对实际网络环境中的统计变化和时漂移时的局限性。

The MAWIFlow dataset is a streaming benchmark dataset constructed based on the MAWILab v1.1 dataset, designed to provide realistic and reproducible evaluations for anomaly detection methods. It consists of traffic samples collected from trans-Pacific backbone networks, with a time span covering 2011, 2016, and 2021. The creation process of this dataset involves extracting flow representations from raw packet captures while retaining the original anomaly labels from the MAWILab dataset. This dataset was developed to address the limitations of traditional network intrusion detection methods when coping with statistical changes and temporal drift in real-world network environments.

提供机构：

亥姆霍茨大学汉堡人工智能研究所

创建时间：

2025-06-20

原始信息汇总

MAWIFlow 数据集概述

数据集简介

基于MAWILab v1.1数据集构建的流量基准数据集
设计用于网络入侵检测的异常检测方法评估
提供真实且可重复的流量数据评估环境

数据来源

源自跨太平洋骨干网络流量
包含2011年1月、2016年和2021年的时序独立样本

数据特点

原始数据包捕获转换为CICFlowMeter格式的流表示
保留MAWILab原始异常标签
反映真实网络环境中的统计变异性和时序漂移

基准测试结果

传统机器学习方法包括决策树、随机森林、XGBoost和逻辑回归
深度学习模型采用CNN-BiLSTM架构
树基分类器在静态数据表现良好但随时间性能下降
CNN-BiLSTM模型展现更好的泛化能力

技术依赖

数据版本控制工具：dvc
Python包管理器：uv
容器工具：podman
数据过滤工具：pcap-filter
流量分析工具：CICFlowMeter

使用说明

安装dvc、uv和podman
获取原始数据（建议分块获取）
运行DVC数据处理管道

许可信息

处理管道采用MIT许可证
原始数据版权归MAWILab项目所有
CICFlowMeter使用独立许可证

搜集汇总

数据集介绍

构建方式

MAWIFlow数据集基于MAWILab v1.1的真实网络流量数据构建，通过可重复的预处理流程将原始数据包捕获转换为符合CICFlowMeter格式的流表示。该流程包括数据解压缩、数据包分割、流生成和标签传播等步骤，确保数据的标准化和标签的准确性。数据集涵盖了2011年、2016年和2021年三个不同时间段的跨太平洋骨干网络流量样本，以反映网络流量的时间漂移和统计变异性。

特点

MAWIFlow数据集的主要特点在于其真实性和时间多样性。数据集来源于真实网络环境，而非合成数据，能够更准确地反映实际网络中的异常流量和攻击模式。此外，数据集覆盖了多个时间段的流量样本，为研究网络异常检测方法在时间漂移下的性能提供了重要基础。数据集的流表示格式兼容CICFlowMeter，便于与其他研究进行对比和集成。

使用方法

MAWIFlow数据集适用于网络异常检测算法的评估和比较研究。研究人员可以使用该数据集训练和测试传统机器学习模型（如决策树、随机森林）和深度学习模型（如CNN-BiLSTM），以评估其在真实网络环境中的性能。数据集的时间多样性使其特别适合研究模型在时间漂移下的泛化能力。使用前需对数据进行归一化和编码处理，并按照时间划分训练集和测试集，以确保评估的公正性和可重复性。

背景与挑战

背景概述

MAWIFlow数据集由德国汉堡赫尔穆特·施密特大学人工智能研究所的Joshua Schraven等研究人员于2025年提出，旨在解决网络入侵检测领域中合成数据集的局限性。该数据集基于MAWILab v1.1的真实网络流量数据，通过标准化预处理流程转化为符合CICFlowMeter格式的流表示，涵盖了2011年、2016年和2021年三个时间段的跨太平洋骨干网络流量样本。MAWIFlow的创建填补了现有基准数据集在统计变异性和时间漂移方面的空白，为异常检测方法的评估提供了更真实的场景。其核心研究问题聚焦于网络流量异常检测在动态环境中的泛化能力，尤其关注时间因素对模型性能的影响。

当前挑战

MAWIFlow数据集面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，网络入侵检测需要应对不断演变的攻击模式和时间漂移问题，传统基于静态合成数据的评估方法难以反映真实网络环境的动态特性。具体表现为：1) 模型在跨时间评估中性能显著下降，如随机森林模型在2011年数据训练后对2021年数据的AUC降至0.61；2) 异常标签的不确定性，原始MAWILab标签通过启发式集成方法生成，可能存在偏差。在构建过程方面，挑战包括：1) 从原始数据包捕获到流表示的转换需要精确匹配时间窗口以避免标签错误；2) 处理长达18年的海量数据（约6.5TB）对计算资源和存储提出了较高要求；3) 保持不同时间段数据的一致性和可比性需要复杂的标准化处理。

常用场景

经典使用场景

MAWIFlow数据集专为网络入侵检测领域设计，其经典使用场景包括评估机器学习模型在真实网络流量中的异常检测性能。该数据集通过捕捉跨太平洋骨干网络流量的时间动态变化，为研究者提供了一个能够模拟实际网络环境中统计变异性和时间漂移的基准测试平台。在网络安全研究中，MAWIFlow常被用于对比传统机器学习算法（如决策树、随机森林）与深度学习模型（如CNN-BiLSTM）在时间演化数据上的泛化能力。

实际应用

在实际应用中，MAWIFlow被互联网服务提供商和网络安全公司用于测试入侵检测系统的长期部署稳定性。其预处理管道输出的CICFlowMeter兼容格式可直接集成到现有网络安全分析平台，支持对DDoS攻击、端口扫描等异常行为的检测模型优化。日本与美国间的跨洋骨干网络数据特性，使其特别适用于评估跨国企业网络安全系统的适应性。

衍生相关工作

该数据集催生了多个经典研究方向：1) 时间鲁棒模型架构如CNN-BiLSTM的改进工作（Duraj et al., 2025）；2) 基于流量特征的增量学习框架（Cantone et al., 2024）；3) 多时段数据融合策略研究。其提供的标准化预处理管道还被扩展应用于Kyoto 2006+等数据集的流式转换，形成了网络异常检测领域的基准生成范式。

以上内容由遇见数据集搜集并总结生成