NetBench

Name: NetBench
Creator: 威廉与玛丽学院计算机科学系
Published: 2024-03-19 11:36:53
License: 暂无描述

arXiv2024-03-19 更新2024-06-21 收录

下载链接：

https://github.com/WM-JayLab/NetBench

下载链接

链接失效反馈

官方服务：

资源简介：

NetBench是一个大规模且全面的网络流量基准数据集，由威廉与玛丽学院计算机科学系创建，旨在评估机器学习模型，特别是基础模型在网络流量分类和生成任务中的表现。该数据集整合了7个公开数据集，涵盖了20个任务，包括15个分类任务和5个生成任务。数据集的创建过程涉及从原始网络流量数据中提取流和包，进行隐私保护处理，并使用统一的十六进制编码方法标准化数据格式。NetBench的应用领域广泛，主要用于网络流量的公平评估和基础模型的发展，以解决网络性能、安全和可靠性问题。

NetBench is a large-scale and comprehensive network traffic benchmark dataset, created by the Department of Computer Science at the College of William & Mary, aiming to evaluate machine learning models, especially foundation models, in network traffic classification and generation tasks. This dataset integrates seven public datasets, covering 20 tasks including 15 classification tasks and 5 generation tasks. The dataset creation process involves extracting flows and packets from raw network traffic data, conducting privacy-preserving processing, and standardizing the data format with a unified hexadecimal encoding method. NetBench has a wide range of application scenarios, and is primarily used for fair evaluation of network traffic and the development of foundation models, to address issues concerning network performance, security and reliability.

提供机构：

威廉与玛丽学院计算机科学系

创建时间：

2024-03-15

搜集汇总

数据集介绍

构建方式

NetBench数据集的构建基于七个公开可用的数据集，涵盖了广泛的20个任务，包括15个分类任务和5个生成任务。数据集的构建过程首先将原始网络流量数据分割为训练、验证和测试集，以防止数据泄露。随后，对敏感的头部字段进行匿名化处理，并采用统一的十六进制编码方法对数据进行标准化处理。此外，数据集提供了流级别和数据包级别的评估，以适应不同的输入类型。

特点

NetBench数据集的特点在于其大规模和全面性，涵盖了多种网络流量分析任务，包括分类和生成任务。该数据集通过统一的数据处理方法，确保了不同模型之间的公平比较。此外，NetBench还提供了流级别和数据包级别的评估，使得模型能够在不同粒度上进行性能评估。

使用方法

NetBench数据集适用于评估和训练机器学习模型，特别是基础模型，在网络流量分类和生成任务中的表现。用户可以通过访问提供的GitHub链接获取数据集，并使用其中的训练、验证和测试集进行模型训练和评估。数据集支持多种输入类型，包括流级别和数据包级别的数据，用户可以根据具体任务选择合适的输入格式进行模型训练和测试。

背景与挑战

背景概述

在计算机网络领域，网络流量分析对于确保网络性能、安全性和可靠性至关重要。然而，处理多样化的数据包（包括加密和非加密数据）是网络流量分析中的一个重大挑战。为了解决这一问题，陈乾、李晓畅、王钦能、周刚和邵华杰等研究人员于2024年提出了NetBench数据集。NetBench是一个大规模且全面的网络流量基准数据集，旨在评估机器学习模型，特别是基础模型，在网络流量分类和生成任务中的性能。该数据集基于七个公开可用的数据集，涵盖了20个任务，包括15个分类任务和5个生成任务。通过评估八个最先进的分类模型（包括两个基础模型）和两个生成模型，研究结果表明，基础模型在流量分类任务中显著优于传统的深度学习方法。NetBench的推出旨在促进不同方法之间的公平比较，并推动网络流量领域基础模型的发展。

当前挑战

NetBench数据集在构建过程中面临多个挑战。首先，处理多样化的数据包（包括加密和非加密数据）是一个复杂的问题，需要统一的数据处理方法来确保公平的模型评估。其次，数据泄露的风险是一个重要问题，特别是在将同一流中的数据包随机分割到训练和测试集时。此外，现有的数据处理方法通常是为特定任务定制的，这导致了数据处理管道的差异和不公平的比较。最后，尽管基础模型在流量分类任务中表现出色，但在流量生成任务中的应用仍然较少，这为未来的研究提供了探索的空间。

常用场景

经典使用场景

NetBench数据集在网络流量分析领域中被广泛应用于评估机器学习模型的性能，特别是在网络流量分类和生成任务中。其经典使用场景包括对多种网络流量数据进行分类，如VPN检测、Tor检测、恶意软件检测等，以及生成网络流量数据包的关键头部字段，如源IP地址、目标IP地址、源端口、目标端口和数据包长度。通过这些任务，NetBench为研究人员提供了一个统一的基准，用于比较不同模型的性能。

衍生相关工作

NetBench数据集的推出催生了多项相关研究工作，特别是在基础模型在网络流量分析中的应用。例如，ET-BERT和YaTC等基础模型在NetBench上的评估结果显示了其在网络流量分类任务中的优越性能，推动了更多基于Transformer的模型在网络流量分析中的研究。此外，NetBench还激发了对网络流量生成任务的研究，如使用生成对抗网络（GAN）生成逼真的网络流量数据。这些衍生工作进一步扩展了NetBench的影响力，推动了网络流量分析领域的技术进步。

数据集最近研究