Networking Dataset|网络性能分析数据集|路由优化数据集
收藏github2021-12-18 更新2024-05-31 收录
下载链接:
https://github.com/shilpakancharla/snn-networking
下载链接
链接失效反馈资源简介:
该数据集包含网络场景的模拟样本,涉及网络拓扑、路由配置和源-目的地流量矩阵。数据集分为训练、验证和测试集,用于预测源-目的地路径上的平均每包延迟。
This dataset comprises simulated samples of network scenarios, encompassing network topology, routing configurations, and source-destination traffic matrices. The dataset is partitioned into training, validation, and test sets, designed for predicting the average per-packet delay on source-destination paths.
创建时间:
2021-10-18
原始信息汇总
数据集概述
背景
- 数据集模拟网络场景,包含三个方面:网络拓扑、路由配置、源-目的地流量矩阵。
- 重点在于预测每个源-目的地路径的平均每包延迟。
- 训练数据集包含25-50个节点的网络,验证数据集包含51-300个节点的网络,测试数据集与验证数据集大小相似。
数据集内容
routings 目录
- 存储路由配置文件,每条记录包含源-目的地路径的节点列表。
graphs 目录
- 包含网络拓扑文件,使用Graph Modeling Language (GML)描述节点和链接。
input_files.txt
- 记录每个模拟的拓扑文件和路由文件。
traffic.txt
- 包含模拟中使用的流量参数,包括最大平均Lambda和路径参数。
simulationResults.txt
- 记录每个样本的网络模拟结果,包括全局统计和路径特定指标。
stability.txt
- 提供数据集稳定性的额外信息,主要参数是达到稳定条件所需的模拟时间。
linkUsage.txt
- 记录每个源-目的地对的链接使用统计,包括端口利用率和丢失率等。
数据处理
预处理
- 使用
preprocessing.py脚本处理未压缩的数据文件,提取和组织流量测量、模拟结果和链接使用信息。
神经网络数据处理
- 进一步处理数据以适应脉冲神经网络,使用AWS S3存储数据,并在SageMaker上运行处理脚本。
神经网络运行
- 使用
snn_leaky.py和snn_synaptic.py构建脉冲神经网络模型,进行网络性能预测。
AI搜集汇总
数据集介绍

构建方式
Networking Dataset的构建基于网络模拟器生成的多样化网络场景,涵盖了网络拓扑、路由配置和源-目的地流量矩阵三个关键方面。数据集通过模拟不同规模的网络拓扑(25至300个节点)生成训练、验证和测试样本。每个样本均标注了网络性能指标,如每包延迟、抖动和丢包率等。数据集的构建过程严格遵循网络模拟器的输出格式,确保了数据的准确性和可重复性。
特点
Networking Dataset的特点在于其多样化的网络拓扑结构和丰富的性能指标标注。数据集不仅包含不同规模的网络拓扑,还提供了详细的源-目的地路径性能测量数据,如带宽、丢包率和延迟分布等。此外,数据集还包含了端口统计信息,如队列利用率和平均包长,为网络性能预测提供了多维度的数据支持。这些特点使得该数据集在网络优化和性能预测研究中具有重要价值。
使用方法
Networking Dataset的使用方法包括数据下载、预处理和模型训练三个主要步骤。用户可以从指定链接下载数据集,并通过提供的预处理脚本将原始数据转换为适合机器学习模型输入的格式。数据集支持多种网络性能预测任务,尤其是基于脉冲神经网络的模型训练。用户可以根据需求选择不同的模型架构,如Leaky SNN或Synaptic SNN,并通过特征工程技术(如PCA和LASSO回归)优化模型性能。数据集的详细文档和代码示例为研究人员提供了便捷的使用指南。
背景与挑战
背景概述
Networking Dataset 是一个专注于网络性能预测的数据集,旨在通过模拟网络场景来研究网络拓扑、路由配置和源-目的流量矩阵对网络性能的影响。该数据集由巴塞罗那超级计算中心的研究团队于2021年创建,主要用于预测每条源-目的路径上的平均每包延迟。数据集包含训练、验证和测试三个部分,分别模拟了不同规模的网络拓扑,训练集涵盖25至50个节点的网络,验证集和测试集则扩展至51至300个节点。该数据集在网络性能优化、路由算法设计等领域具有重要的研究价值,为网络仿真和机器学习模型的开发提供了丰富的数据支持。
当前挑战
Networking Dataset 在解决网络性能预测问题时面临多重挑战。首先,网络拓扑的复杂性和动态性使得准确预测每包延迟变得极为困难,尤其是在大规模网络中,路径选择和流量分布的不确定性增加了预测的复杂性。其次,数据集的构建过程中,模拟大规模网络场景需要大量的计算资源和时间,确保模拟结果的稳定性和准确性是一个技术难点。此外,数据预处理和特征工程阶段,如何从海量的网络统计数据中提取有效的特征,并应用于尖峰神经网络等机器学习模型,也是一个亟待解决的问题。这些挑战不仅体现在算法设计上,还涉及到计算效率和模型泛化能力的平衡。
常用场景
经典使用场景
Networking Dataset 在计算机网络研究领域中,经典的使用场景是模拟和分析复杂网络拓扑中的流量行为。该数据集通过模拟不同规模的网络拓扑、路由配置和源-目的流量矩阵,提供了丰富的网络性能指标,如每包延迟、抖动和丢包率。研究人员可以利用这些数据来训练和验证机器学习模型,特别是针对网络延迟预测的模型。
实际应用
在实际应用中,Networking Dataset 可以用于优化企业网络、数据中心网络以及云计算环境中的流量管理。通过分析数据集中的网络性能指标,网络管理员可以更好地理解网络瓶颈,优化路由策略,减少延迟和丢包,从而提高整体网络服务质量。此外,该数据集还可用于开发智能网络管理系统,实现自动化流量调度和故障检测。
衍生相关工作
Networking Dataset 衍生了许多经典的研究工作,特别是在网络性能预测和优化领域。基于该数据集,研究人员开发了多种机器学习模型,如基于脉冲神经网络(SNN)的延迟预测模型。此外,该数据集还推动了网络仿真工具的开发,使得研究人员能够在虚拟环境中测试和验证新的网络协议和算法。这些工作为网络科学和工程领域提供了重要的理论和实践基础。
以上内容由AI搜集并总结生成



