Wideband Signal Recognition Dataset

arXiv2021-10-02 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2110.00518v1

下载链接

链接失效反馈

官方服务：

资源简介：

用于训练神经网络执行信号识别任务的数据集，该任务涉及信号的检测、时间和频率上的定位以及分类。

A dataset for training neural networks to perform a signal recognition task, which involves signal detection, localization in both the time and frequency domains, and classification.

创建时间：

2021-10-02

搜集汇总

数据集介绍

构建方式

在无线通信领域，宽频带信号识别面临信号检测、定位与分类的联合挑战。该数据集的构建采用系统化生成流程，首先生成130个独特的频带布局元数据，模拟ISM、蜂窝网络、公共安全等16种典型频谱分布模式。每个布局包含随机变化的调制类型、带宽、起始时间、持续时间和幅度参数，涵盖2-PSK至256-QAM等15种数字与模拟调制方式。信号通过白化随机符号数据生成，单载波调制采用根升余弦脉冲整形滤波器，模拟调制则嵌入从公开音频源提取的音乐与语音内容。所有信号按指定参数重采样后，在无噪声干扰的纯净环境中叠加形成宽频带复合信号，最终以SigMF标准格式存储为复数采样数据与JSON元数据组合。

特点

该数据集的核心特征体现在其多维度仿真能力与标准化设计。频谱分布模拟真实场景的时频特性，信号参数在带宽、时长与调制方式上呈现高度异质性，打破了传统数据集中信号长度与带宽均匀分布的局限。数据生成过程严格控制信道损伤变量，仅保留邻道干扰与滤波器伪影作为固有特性，使得信噪比成为可精确控制的实验变量。数据集采用模块化分割策略，包含260个训练文件与独立测试集，每个文件涵盖1亿采样点与近1.25万个独特信号实例。这种设计既保证了数据多样性，又为算法性能评估提供了可重复的基准测试环境，特别适用于端到端信号识别系统的训练与验证。

使用方法

该数据集的应用需遵循频谱分析到机器学习任务的转化路径。原始时域复数采样需通过512点非重叠离散傅里叶变换转换为对数幅度谱图，形成二维时频网格作为神经网络输入。在模型训练阶段，可采用语义分割框架构建端到端识别系统，推荐使用U-Net等具备多尺度特征提取能力的架构，配合逐像素二元交叉熵损失函数进行优化。训练过程中需动态添加信噪比在-10dB至30dB区间均匀分布的高斯白噪声以增强模型鲁棒性。后处理阶段可采用连通分量分析替代传统密度聚类，对神经网络输出的检测热图进行信号边界提取。评估体系应基于交并比阈值的精确率-召回率指标，通过F1分数综合衡量时频定位与调制分类的联合性能，确保与计算机视觉物体识别任务的评价范式保持一致。

背景与挑战

背景概述

宽带信号识别数据集由DeepSig公司于2021年发布，旨在解决无线频谱感知领域中的信号识别难题。该数据集针对传统频谱感知方法仅能进行单一信号检测或分类的局限性，创新性地将信号检测、时频定位与调制分类三项任务深度融合，构建了端到端的信号识别基准。其核心研究问题在于如何从宽带接收信号中同时识别多个随机出现信号的调制类型、中心频率与带宽参数，为动态频谱接入、无线设备监测等应用提供关键技术支撑。该数据集通过模拟真实无线环境中的多信号共存场景，为机器学习方法在频谱感知领域的应用奠定了重要数据基础，推动了信号处理与计算机视觉技术的交叉融合。

当前挑战

该数据集主要面临两大挑战：在领域问题层面，宽带信号识别需克服传统方法对固定信道与预设参数的依赖，解决信号在连续时频域中随机出现的检测与定位难题，同时需在低信噪比条件下保持对多种调制方式的分类鲁棒性。构建过程中，设计者需精确模拟真实电磁环境中的多信号叠加效应，平衡信号密度与复杂度以保持数据集的实用性；在标注层面，需建立适用于时频联合定位的评估指标，将计算机视觉中的交并比概念引入信号处理领域，并解决复杂信号边界标注的一致性问题。此外，数据生成需严格控制相邻信道干扰与滤波器伪影，确保基准数据集的纯净性与可复现性。

常用场景

经典使用场景

在无线通信领域，宽带信号识别数据集为联合信号检测、定位与分类任务提供了标准化评估基准。该数据集通过模拟真实频谱环境中的多信号共存场景，支持研究者训练端到端的神经网络模型，实现从原始时域样本到信号时频边界及调制类型的精确识别。其经典应用体现在将计算机视觉中的语义分割技术迁移至频谱分析，利用U-Net等架构对信号能量在时频平面上的分布进行像素级分类，为复杂电磁环境下的智能频谱感知奠定了数据基础。

衍生相关工作

基于该数据集衍生的研究推动了宽带信号处理与机器学习的深度融合。早期工作如RadioML项目构建了开源信号数据集生态，而后续研究则扩展至频谱分割与分类的联合建模。相关经典工作包括将双阈值定位算法（LAD）拓展至二维时频域，以及利用深度学习方法实现端到端的信号检测与参数估计。这些成果不仅丰富了信号识别领域的算法体系，也为后续基于Transformer等新兴架构的频谱理解研究提供了可复现的基线模型。

数据集最近研究