five

ChangShuoRadioData 2025 (CSRD2025)

收藏
arXiv2025-08-27 更新2025-08-29 收录
下载链接:
https://github.com/Singingkettle/ChangShuoRadioData1
下载链接
链接失效反馈
官方服务:
资源简介:
CSRD2025是一个大型合成射频数据集,旨在解决无线通信中频谱感知的复杂问题。该数据集由北京邮电大学的研究团队开发,包含超过2500万帧的数据,大小约为200TB,远大于常用的RML2018数据集。CSRD2025提供了前所未有的信号多样性和复杂性,专门设计用于弥合仿真与现实之间的差距。数据集包括标准化的8:1:1训练、验证和测试分割,以确保可重复的研究。CSRD框架是一个开源的、模块化的模拟平台,用于生成大规模的合成射频数据,可以模拟端到端的传输和接收过程,并包含多种调制方案、可配置的信道模型和详细的射频前端损伤模型。

CSRD2025 is a large-scale synthetic radio frequency (RF) dataset developed to address the complex challenges of spectrum sensing in wireless communications. Developed by a research team from Beijing University of Posts and Telecommunications (BUPT), this dataset contains over 25 million frames of data with a total size of approximately 200 TB, which is significantly larger than the widely used RML2018 dataset. CSRD2025 offers unprecedented signal diversity and complexity, and is specifically designed to bridge the gap between simulation and real-world scenarios. The dataset features a standardized 8:1:1 train-validation-test split to ensure reproducible research. The CSRD framework is an open-source, modular simulation platform for generating large-scale synthetic RF data. It can simulate end-to-end transmission and reception processes, and includes multiple modulation schemes, configurable channel models, and detailed RF front-end impairment models.
提供机构:
北京邮电大学
创建时间:
2025-08-27
搜集汇总
数据集介绍
main_image_url
构建方式
CSRD2025数据集通过模块化仿真框架构建,采用端到端的无线传输与接收链模拟,涵盖信号生成、调制、信道传输及射频损伤等全流程。该框架集成100种调制方案,支持统计衰落模型与基于OpenStreetMap数据的射线追踪信道仿真,并引入收发器射频前端损伤模型。数据生成采用配置驱动方式,通过JSON参数文件定义场景参数,确保仿真的可重复性与多样性,最终生成包含2500万帧、约200TB的复包络IQ数据。
特点
CSRD2025以其规模与多样性著称,包含100种调制类型(涵盖模拟、数字单载波、多载波及OTFS等),支持SISO/MISO/MIMO天线配置,并覆盖广泛的信道条件(如瑞利/莱斯衰落、多普勒效应及站点特异性射线追踪)。数据集提供精确的时频元数据标注,包括信号参数、SNR分布及COCO格式的频谱图标注,支持目标检测任务。其信号实例密度、调制类别分布及环境多样性(如城市、郊区、工业区等)均经过精心设计,以弥合仿真与现实的差距。
使用方法
数据集按8:1:1比例预分为训练、验证与测试集,用户可通过框架提供的索引文件加载数据。原始IQ数据以MAT格式存储,配套JSON元数据遵循SigMF标准,包含信号参数、信道条件及损伤信息。为支持视觉化机器学习方法,提供频谱图转换脚本及COCO格式标注,便于直接应用于目标检测框架(如Detectron2)。研究者可基于标注信息进行信号分类、时频定位或参数估计等任务,同时利用标准分割确保实验结果的可复现性与一致性。
背景与挑战
背景概述
随着无线通信领域大规模人工智能模型(LAMs)的发展,对高质量频谱感知数据的需求日益迫切。2025年,北京邮电大学常硕团队联合香港中文大学(深圳)共同推出了ChangShuoRadioData 2025(CSRD2025)数据集,旨在解决复杂频谱感知任务中数据稀缺的核心问题。该数据集通过开源模块化仿真平台生成,包含超过2500万帧信号数据(约200TB),支持100种调制方案、多天线配置及真实射频损伤建模,其规模达到经典RML2018数据集的万倍量级,为AI驱动的频谱管理研究提供了关键基础设施。
当前挑战
在领域问题层面,CSRD2025需应对真实无线环境中信号动态性、异构性和频谱拥堵带来的挑战,包括弱信号检测、重叠信号分离及多尺度时频特征提取等难题。构建过程中面临三大挑战:一是仿真与现实的鸿沟(Sim2Real Gap),需通过射线追踪和硬件损伤建模提升数据真实性;二是超大规模数据生成的算力与存储成本控制,需设计高效并行化架构;三是多模态标注一致性保障,需将IQ数据转化为COCO格式的时频目标检测标注,并确保25万帧元数据的精确同步。
常用场景
经典使用场景
在无线通信频谱感知研究领域,CSRD2025数据集为大规模人工智能模型的训练与验证提供了关键支撑。该数据集通过模拟端到端的无线传输与接收过程,涵盖了100种调制方案、可配置信道模型以及真实的射频前端损伤,能够精确复现复杂电磁环境下的信号特性。研究人员可利用其生成的25,000,000帧数据,开展频谱信号检测、调制识别、信号参数估计等核心任务,尤其适用于多信号共存场景下的算法鲁棒性测试。
实际应用
在实际应用层面,CSRD2025为认知无线电、动态频谱接入及干扰管理等场景提供了数据支撑。其支持的MIMO配置、射线追踪信道模型及射频损伤模拟,能够反映城市、郊区、工业区等多种真实环境下的传播特性。通信设备厂商可基于该数据集开发智能频谱监测系统,实现对非法信号干扰的快速识别与定位,提升频谱资源利用效率与网络安全性。
衍生相关工作
该数据集推动了多项经典研究工作的诞生,尤其在基于视觉的频谱分析领域。其提供的COCO格式标注支持目标检测模型(如YOLO、Faster R-CNN)直接应用于时频图像中的信号识别与分类。衍生研究包括多模态信号融合检测、低信噪比环境下的小信号提取,以及基于射线追踪的环境自适应频谱预测算法,为6G智能频谱管理提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作