Diverse Network Flow Datasets

Name: Diverse Network Flow Datasets
Creator: 美国弗吉尼亚州麦克莱恩的MITRE公司
Published: 2025-05-13 01:26:48
License: 暂无描述

arXiv2025-05-13 更新2025-05-14 收录

下载链接：

http://arxiv.org/abs/2505.07777v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一种新的机器学习模型，用于生成高保真度的人工合成网络流数据集，这些数据集能够代表真实世界的网络。该模型通过使用随机克罗内克图生成器生成动态多图结构，并利用表格生成对抗网络生成特征，进一步利用XGBoost模型进行图对齐，确保特征能够准确叠加到生成的图结构上。该模型在准确性和多样性方面都有所提高，同时保持了较高的效率。本文还探讨了在合成图数据集创建过程中准确性和多样性之间的权衡。

This paper presents a novel machine learning model for generating high-fidelity synthetic network flow datasets that can represent real-world networks. This model generates dynamic multi-graph structures using a random Kronecker graph generator, produces features via a Tabular Generative Adversarial Network, and further adopts an XGBoost model for graph alignment to ensure the features can be accurately superimposed onto the generated graph structures. This model achieves improvements in both accuracy and diversity while maintaining high efficiency. This paper also discusses the trade-off between accuracy and diversity during the creation of synthetic graph datasets.

提供机构：

美国弗吉尼亚州麦克莱恩的MITRE公司

创建时间：

2025-05-13

原始信息汇总

数据集概述

基本信息

标题: Synthesizing Diverse Network Flow Datasets with Scalable Dynamic Multigraph Generation
作者: Arya Grayeli, Vipin Swarup, Steven E. Noel
提交日期: 2025年5月12日
arXiv标识符: arXiv:2505.07777v1
DOI: 10.48550/arXiv.2505.07777

研究领域

主要领域: 计算机科学 > 机器学习 (cs.LG)
次要领域: 网络与互联网架构 (cs.NI)

摘要

研究背景: 获取真实网络数据集常因隐私、安全和计算限制而困难。
研究方法:
- 使用随机Kronecker图生成器生成动态多重图结构。
- 采用表格生成对抗网络生成特征。
- 使用XGBoost模型进行图对齐，确保特征准确覆盖到生成的图结构。
评估方法: 提出新指标评估合成图的准确性和多样性。
研究成果:
- 在保持效率的同时，提高了合成图的准确性。
- 探讨了合成图数据集中准确性与多样性之间的权衡。
贡献:
- 合成并评估了大规模真实网络流数据集。
- 定义了评估合成图生成模型的新指标。

相关链接

PDF链接: http://arxiv.org/pdf/2505.07777v1
HTML链接: http://arxiv.org/html/2505.07777v1
TeX源码: http://arxiv.org/format/2505.07777v1

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，获取真实网络流量数据集常受隐私与计算资源限制。本数据集采用三阶段生成框架：首先通过随机Kronecker图生成器构建网络拓扑骨架，随后利用条件表格生成对抗网络(CTGAN)学习边缘特征分布，最终采用XGBoost模型进行图结构对齐。这种模块化设计实现了节点规模与边缘特征的解耦处理，支持生成包含IP地址、端口协议等属性的动态多重图。

使用方法

该数据集主要服务于网络安全算法的开发验证，使用时应重点关注三个维度：通过内置的偏差-多样性指标评估生成质量，利用结构相似度等辅助指标验证拓扑保真度，并建议结合时序特征分布图进行可视化分析。对于大规模实验，可采用分批生成策略控制计算开销，同时通过调节CTGAN的温度参数可灵活控制生成流量的随机性程度。

背景与挑战

背景概述

Diverse Network Flow Datasets是由MITRE Corporation的Arya Grayeli、Vipin Swarup和Steven E. Noel于2025年提出的一个合成网络流数据集。该数据集旨在解决网络安全领域中的一个核心问题：在隐私、安全和计算资源受限的情况下，如何获取高质量的网络流数据以支持研究。通过结合随机Kronecker图生成器和条件表格生成对抗网络（CTGAN），该数据集能够生成具有高度真实性和多样性的动态多重图，从而为网络安全研究提供了重要的数据支持。其创新性在于引入了新的评估指标，用于衡量合成图的准确性和多样性，填补了相关领域的空白。

当前挑战

Diverse Network Flow Datasets面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，网络流数据的隐私性和安全性限制了真实数据的获取，而现有的合成方法往往无法同时满足准确性和多样性的需求。在构建过程中，如何高效地生成动态多重图并确保其结构与特征的协调性是一个技术难点。此外，评估合成图的质量时，缺乏标准化的指标也是一个重要挑战。该数据集通过分阶段的建模过程（结构生成、特征生成和图对齐）和新定义的评估指标，部分解决了这些问题，但在多样性与准确性的平衡上仍有改进空间。

常用场景

经典使用场景

Diverse Network Flow Datasets 在网络安全研究领域中被广泛用于模拟和分析复杂的网络流量模式。该数据集通过合成动态多重图结构，能够精确反映真实网络中的流量特征，包括IP地址、端口协议组合以及时间戳等关键信息。研究人员利用该数据集进行网络异常检测、入侵行为分析和流量预测等任务，为网络安全防御策略的制定提供了可靠的数据支持。

解决学术问题

该数据集解决了网络安全研究中真实网络流量数据获取困难的核心问题。由于隐私和安全限制，真实网络流量数据往往难以公开获取，而该数据集通过高效的合成方法生成了高保真的网络流量数据，为学术研究提供了丰富的数据资源。其创新的评估指标还解决了合成数据准确性与多样性难以平衡的学术难题，推动了图生成模型领域的研究进展。

实际应用

在实际应用场景中，Diverse Network Flow Datasets 被广泛应用于网络安全系统的开发和测试。安全厂商利用该数据集训练机器学习模型，以识别新型网络攻击模式；企业IT部门则通过模拟生成的网络流量测试其基础设施的防御能力。此外，该数据集还被用于5G核心网和物联网安全研究，为关键信息基础设施的安全评估提供了重要工具。

数据集最近研究