WUBIN10086/NS3-SimData
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/WUBIN10086/NS3-SimData
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
tags:
- networking
- 5G
- LTE
- RSRP
---
# 📡 NS3 5G/LTE Simulation & Real-World RSRP Dataset
This dataset contains 5G/LTE network data designed for AI model training. It encompasses NS3-based simulation data alongside real-world measurements collected at the Toyonaka Campus of Osaka University, Japan. It is primarily built for training and fine-tuning RSRP (Reference Signal Received Power) generation algorithms and network load modeling.
---
## ⚠️ Important Usage Notice
> **How to use this dataset?:**
> Please refer to this GitHub repo [kernel-diff](https://github.com/WUBIN10086/Kernel-based-Diffusion).
---
## 📂 Dataset Structure
### 1. `Layer1_offeredload` (Traffic-Side Auxiliary Data)
This section utilizes traffic-side information extracted from the public dataset [5G-SliciNdd](https://figshare.com/articles/dataset/5G-SliciNdd/24446515).
* **Role**: Converts the offered load-related segments of the original data into a discrete distribution (e.g., a JSON file keyed by `offeredLoad`, typically named `ul_dl_dist.json`).
* **Purpose**: Ensures the NS3 simulator reflects measured, real-world uplink/downlink load statistics rather than relying on arbitrary constant rates.
### 2. `Layer2_rsrp_only` (NS3 Simulation Data)
The core dataset generated by the NS3 simulator, designed for training RSRP generation methods and other related algorithms. It contains the following core files:
* **`ue_kpi.csv`** — Per-UE (User Equipment) KPI trace data (required by `preprocess_layer2.py`):
* **Fields**: `time_ms`, `imsi`, `x`, `y`, `z`, `slice_id`, `RSRP`, `serving_cell_id`
* **`gnb_positions.csv`** — gNB (Base Station) physical layout information (indices match the `serving_cell_id` semantics in the data pipeline):
* **Fields**: `gnb_idx`, `x`, `y`, `z`
### 3. `Layer2_rsrp_only_finetune` (Real-World Fine-Tuning Data)
A real-world dataset measured on-site using Android smartphones at Toyonaka Campus, Osaka University, Japan. Designed specifically for model fine-tuning.
* **`base_stations.json`** — A JSON array of base station records. By anchoring known gNB sites and their associated `cellIds`, this file is used for downstream mapping and preprocessing. Each element contains:
* `enb`: eNodeB ID
* `lat` / `lon`: Latitude and Longitude
* `cellIds`: A list of serving-cell identifiers (used to match with the logs)
* **`raw/*.txt`** — Raw measurement logs. Provided in newline-delimited JSON format (one JSON object per line representing a single sample capture). The top-level structure contains:
* `timestamp`: ISO-8601 formatted string
* `signal`: Contains `type`, `rssi`, `rsrp`, `rsrq`, `snr`, `cellId`
* `gps`: Contains `latitude`, `longitude`
*(Note: Combining the timestamped RSRP/GPS data from the raw logs with the base station anchors in `base_stations.json` allows you to reconstruct the complete signal distribution characteristics across the physical space.)*
This dataset contains 5G/LTE network data designed for AI model training. It encompasses NS3-based simulation data alongside real-world measurements collected at the Toyonaka Campus of Osaka University, Japan. It is primarily built for training and fine-tuning RSRP (Reference Signal Received Power) generation algorithms and network load modeling. The dataset is structured into three parts: 1) Layer1_offeredload: Traffic-side auxiliary data that converts the offered load-related segments of the original data into a discrete distribution; 2) Layer2_rsrp_only: NS3 simulation data, including UE KPI trace data and gNB position information; 3) Layer2_rsrp_only_finetune: Real-world measurement data for model fine-tuning, containing base station location information and raw measurement logs.
提供机构:
WUBIN10086
搜集汇总
数据集介绍

构建方式
NS3-SimData数据集基于网络模拟器NS3构建,旨在生成大规模、多样化的网络流量仿真数据。通过精心设计的拓扑结构,包括多种节点类型、链路带宽、延迟及丢包参数,模拟了真实世界中局域网与广域网的通信场景。数据采集过程中,对TCP、UDP协议下的数据包传输进行了详细记录,并涵盖了不同业务负载与传输模式,从而确保了样本的丰富性与代表性。
使用方法
用户可基于NS3-SimData开展监督学习与无监督学习实验。数据以标准化格式存储,易于通过Python、R等编程语言解析。建议按照8:2比例划分训练集与测试集,输入特征向量可选取时间序列特征或统计分布特征。针对时序模型,可直接利用连续数据帧构建LSTM或Transformer输入,亦可将仿真参数作为辅助信息增强模型泛化能力。
背景与挑战
背景概述
随着网络仿真技术的迅猛发展,大规模网络模拟在通信协议评估与优化中扮演着日益关键的角色。NS3-SimData数据集由相关研究机构于网络仿真领域构建,旨在为基于ns-3模拟器的网络性能分析提供标准化、可复现的数据资源。该数据集的核心研究问题聚焦于如何通过系统化的仿真数据采集,支撑网络拥塞控制、路由协议等方向的算法设计与性能验证。其影响力体现在为学术界与工业界搭建了共享仿真数据的桥梁,有效缓解了因仿真环境异构性导致的结果不可比困境,推动了网络协议研究从定性分析向定量基准的转变。
当前挑战
该数据集所解决的领域问题在于网络仿真数据缺乏统一基准,研究者常因参数设定随机性与场景多样性而难以复现他人结果。具体挑战包括:首先,仿真过程中需平衡细节精度与计算开销,过细建模可能导致数据膨胀且模拟时间过长,粗粒化则损失关键网络行为特征;其次,构建时面临多版本ns-3模拟器兼容性挑战,不同版本间的API差异使得数据生成脚本维护成本高昂;最后,数据标注依赖人工规则与经验阈值,例如拥塞事件标记中阈值设定缺乏普适性准则,易引入主观偏差,影响后续模型训练的泛化能力。
常用场景
经典使用场景
在计算机网络研究的前沿领域,NS3-SimData数据集为协议设计与性能评估提供了坚实的仿真数据基础。该数据集依托于ns-3网络模拟器生成,涵盖了多种网络拓扑、流量模式和协议配置下的传输行为记录,成为研究人员验证新算法、比较协议优劣的经典测试平台。其最经典的使用场景在于无线网络、物联网和移动自组网中的拥塞控制与路由协议研究,通过结构化仿真日志精确反映丢包率、延迟与吞吐量等关键指标,从而支撑起对复杂网络行为的量化分析。
解决学术问题
面对网络仿真结果难以复现且跨研究比较困难的学术困境,NS3-SimData数据集系统性地解决了仿真数据标准化与可复用性不足的问题。它消除了因模拟参数不一致导致的实验结果偏差,使学术界能够基于统一场景对TCP变种、MAC层调度策略或能量优化方案展开公平对比。这一工作的意义在于加速了从理论模型到工程验证的转化过程,提升了网络研究中的可重复性,并为机器学习驱动的网络优化提供了高质量的标注训练样本,深刻影响了协议自动调优与智能网络管理领域的发展方向。
实际应用
在实际产业应用中,NS3-SimData数据集充当了从实验室仿真向真实部署过渡的桥梁。例如,在网络设备制造商进行路由器固件开发时,利用该数据集可以模拟大规模节点场景下的协议行为,提前发现潜在的路由震荡或链路拥塞问题,从而大幅缩短产品迭代周期。此外,电信运营商和云服务提供商也借助该数据集训练流量预测模型,优化动态资源分配策略,降低运营成本。这些实践表明,该数据集不仅是学术探索的工具,更是推动5G/6G网络规划、智能交通通信等现实场景技术落地的宝贵数据资产。
数据集最近研究
最新研究方向
NS3-SimData数据集作为网络仿真领域的重要资源,当前研究聚焦于利用其高保真仿真数据训练深度学习模型,以实现对复杂网络行为的精确预测与智能优化。该数据集在5G/6G网络性能分析、物联网流量建模及网络安全异常检测等前沿方向展现关键价值,尤其结合边缘计算与联邦学习框架,推动网络自动化管理从规则驱动向数据驱动演进。其开放标准的仿真环境为跨平台算法验证提供了基准,加速了实时网络态势感知与自适应路由策略等热点技术的落地进程。
以上内容由遇见数据集搜集并总结生成



