five

Indoor Over-the-Air Modulation Recognition Dataset

收藏
github2026-03-27 更新2026-03-31 收录
下载链接:
https://github.com/penguin8867/OTA-ModSet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含12种数字调制方案的空中(OTA)记录,收集于受控的室内环境,专为自动调制分类(AMC)研究设计,提供了在不同信噪比(SNR)条件下评估深度学习模型的真实基准。数据生成和收集由国防科技大学宽带通信与网络组(BCNG)独立开发的软件定义系统工作室(SDS Studio)平台完成,结合了通用软件无线电外设(USRP)。所有信号在受控的室内环境中传输和接收,包括真实的射频损伤和信道损伤。数据集以HDF5(.h5)或NumPy NPZ(.npz)文件格式存储,包含预定义训练、验证和测试分割。每个样本由I/Q复样本及其调制标签和SNR值组成。

This dataset contains over-the-air (OTA) recordings of 12 digital modulation schemes, collected in a controlled indoor environment. It is specifically designed for automatic modulation classification (AMC) research and provides a realistic benchmark for evaluating deep learning models under varying signal-to-noise ratio (SNR) conditions. The data generation and collection were completed using the Software Defined Systems Studio (SDS Studio) platform independently developed by the Broadband Communication and Network Group (BCNG) at the National University of Defense Technology, in combination with Universal Software Radio Peripheral (USRP) devices. All signals were transmitted and received in a controlled indoor environment, with realistic radio frequency (RF) impairments and channel impairments included. The dataset is stored in HDF5 (.h5) or NumPy NPZ (.npz) file formats, and includes pre-defined training, validation, and test splits. Each sample consists of I/Q complex samples, along with its corresponding modulation label and SNR value.
创建时间:
2026-03-26
原始信息汇总

Indoor Over-the-Air Modulation Recognition Dataset 概述

数据集简介

本数据集包含在受控室内环境中采集的12种数字调制方案的空口(OTA) 记录。它专为自动调制分类(AMC) 研究设计,为评估深度学习模型在不同信噪比条件下的性能提供了一个现实的基准。数据生成和采集由软件定义系统工作室(SDS Studio) 执行,该平台由国防科技大学宽带通信与网络组(BCNG)与通用软件无线电外设联合独立开发。所有信号均在受控室内环境中发射和接收,包含了真实的射频损伤和信道损伤。

数据下载

数据集永久存档于Zenodo,可在CC BY 4.0许可下免费下载。

  • DOI: https://doi.org/10.5281/zenodo.19244450
  • HDF5版本直接下载链接: https://zenodo.org/records/19244451/files/Indoor-OTA-12Mod.h5
  • NPZ版本直接下载链接: https://zenodo.org/records/19244451/files/Indoor-OTA-12Mod.npz

调制类型

数据集包含以下12种调制类别:

  • BPSK, QPSK, 8PSK
  • 16QAM, 64QAM, 256QAM
  • 2FSK, GMSK, OOK
  • 16APSK, OFDM, LoRa

数据采集参数

  • 环境: 具有受控多径和噪声的室内实验室。
  • 硬件: USRP, Pluto, SDS Studio等。
  • 中心频率: 2.42 GHz
  • 带宽: 20 MHz
  • 采样率: 1MHz
  • 信噪比范围: -20 dB 至 18 dB,步长 2 dB
  • 每个信号的样本数: 128个复符号(256个实数值)
  • 样本总数: 3932160

文件格式与结构

数据集以单个文件形式提供:Indoor-OTA-12Mod.h5Indoor-OTA-12Mod.npz。 文件内部包含以下数据集/组:

键名 描述
train_data 训练样本,形状 (N_train, 256) – 每行是256个实数值(I/Q交错)。
train_labels 训练样本的字符串标签,形状 (N_train,)
train_snrs 训练样本的信噪比值(单位dB),形状 (N_train,)
val_data 验证样本,形状 (N_val, 256)
val_labels 验证样本的字符串标签,形状 (N_val,)
val_snrs 验证样本的信噪比值,形状 (N_val,)
test_data 测试样本,形状 (N_test, 256)
test_labels 测试样本的字符串标签,形状 (N_test,)
test_snrs 测试样本的信噪比值,形状 (N_test,)
modulation_types 所有调制类别(字符串)的列表。
target_snrs 数据集中存在的信噪比级别(整数)列表。

注意:原始数据以每样本256个实数存储,代表128个交错格式的复I/Q样本(I1, Q1, I2, Q2, ...)。要在复值神经网络中使用,需重塑为 (N, 2, 128)

数据集划分

数据集已预先划分为训练集验证集测试集。划分按调制类型和信噪比进行分层,以确保所有类别和条件下的平衡分布。

  • 训练集: 占总样本的70%
  • 验证集: 15%
  • 测试集: 15% 各划分之间没有重叠样本。

使用示例

提供了使用Python加载数据集的示例代码,支持通过dataset_Loader.py中的DatasetLoader类加载,或直接使用h5pynumpy读取。

引用格式

若在研究中使用了本数据集,请引用: bibtex @dataset{Penguin8867_OTA-ModSet_2026, author = {Qier Qin and NUDT BCNG Team}, title = {OTA-ModSet: An Over-the-Air Modulation Recognition Dataset}, year = {2026}, publisher = {Zenodo}, version = {v1.0}, doi = {10.5281/zenodo.19244450}, url = {https://doi.org/10.5281/zenodo.19244450} }

许可协议

本数据集根据知识共享署名4.0国际(CC BY 4.0) 许可发布。

联系方式

如有问题、建议或合作意向,请在GitHub上提交问题或联系维护者:[qinqier24@nudt.edu.cn]。

搜集汇总
数据集介绍
main_image_url
构建方式
在无线通信领域,自动调制识别技术的研究亟需贴近真实传播环境的数据支撑。该数据集通过软件定义系统工作室平台,在受控的室内实验室环境中,利用通用软件无线电外设硬件进行信号采集。采集过程以2.42GHz为中心频率,采用20MHz带宽和1MHz采样率,系统性地生成了12种数字调制信号,其信噪比范围覆盖-20dB至18dB,并以2dB为步进间隔。每个信号样本包含128个复数值,最终形成了总计超过390万个样本的标准化数据集。
特点
该数据集的核心价值在于其高度仿真的特性,完整保留了真实无线信道中的射频损伤与多径效应。数据涵盖从基本调制方式到现代通信标准的12类调制方案,包括相移键控、正交幅度调制以及线性调频扩频等技术。样本已按调制类型和信噪比进行分层划分,预先分割为训练集、验证集和测试集,确保了各类别在不同信噪比条件下的均衡分布。数据以HDF5和NumPy两种标准化格式存储,每个样本均附带调制标签和精确信噪比值,为模型评估提供了多维度的基准参照。
使用方法
研究人员可通过Zenodo平台直接下载数据集文件,利用配套的加载工具类实现快速数据读取与格式转换。加载器自动将原始数据重构为适合复数神经网络处理的张量形态,同时提供独热编码的标签矩阵。对于需要自定义处理流程的用户,可直接通过h5py或NumPy库读取文件,并依据文档说明进行维度重塑。数据集的标准化结构支持端到端的机器学习流程构建,便于开展不同信噪比条件下的模型鲁棒性测试与跨场景性能比较研究。
背景与挑战
背景概述
随着无线通信技术的飞速发展,自动调制识别(AMC)作为认知无线电与智能频谱管理的核心技术,其研究依赖于高质量的数据集。由国防科技大学宽带通信与网络小组(BCNG)独立研发的软件定义系统工作室(SDS Studio)于2026年构建了Indoor Over-the-Air Modulation Recognition Dataset,该数据集旨在为深度学习模型在真实室内无线环境下的性能评估提供基准。数据集收录了12种数字调制信号在可控多径与噪声条件下的空中传输记录,覆盖从-20 dB至18 dB的信噪比范围,共计超过390万个样本,其严谨的采集流程与分层划分策略显著提升了AMC领域研究的可靠性与可复现性。
当前挑战
在自动调制识别领域,模型需在复杂多变的信道条件下准确区分高度相似的调制信号,如高阶QAM与PSK变体,低信噪比场景下的特征提取尤为困难。数据集构建过程中,研究人员面临多重挑战:在室内可控环境中模拟真实射频损伤与信道衰落,需精确校准硬件设备以保持信号一致性;同时,确保12种调制类型在宽泛信噪比范围内样本分布的平衡性,避免模型过拟合特定条件;此外,大规模I/Q样本的采集、存储与标准化处理亦对数据工程的鲁棒性提出了严格要求。
常用场景
经典使用场景
在无线通信领域,自动调制识别(AMC)是认知无线电与智能频谱管理的核心技术。Indoor Over-the-Air Modulation Recognition Dataset 作为专为AMC研究设计的实测数据集,其经典使用场景在于为深度学习模型提供在真实室内信道条件下的性能评估基准。该数据集涵盖了从BPSK到LoRa等12种数字调制信号,并在-20 dB至18 dB的信噪比范围内以2 dB步进采集,使得研究人员能够系统性地分析模型在不同信噪比下的鲁棒性与泛化能力。通过预置的训练、验证与测试划分,该数据集可直接用于卷积神经网络、循环神经网络等模型的训练与比较,推动了基于数据驱动的调制识别方法的发展。
实际应用
在实际应用层面,该数据集所支撑的技术可广泛应用于民用与军事领域。在民用方面,基于该数据集训练的模型可部署于认知无线电系统,实现动态频谱接入与干扰检测,提升5G及未来6G网络的频谱利用效率。在物联网场景中,自动识别LoRa、OFDM等调制类型有助于设备管理与信号监测。在军事通信与电子战中,该技术能用于非合作信号识别与威胁分析,增强战场电磁态势感知能力。数据集提供的实测信号为这些应用场景中的算法验证与系统优化提供了可靠的实验基础。
衍生相关工作
围绕该数据集,已衍生出一系列经典的学术研究工作。例如,研究者利用其构建了基于卷积神经网络和注意力机制的端到端调制分类器,显著提升了低信噪比条件下的识别准确率。此外,该数据集常被用作基准,用于比较不同深度学习架构(如ResNet、LSTM)在调制识别任务上的性能。一些工作进一步探索了基于该数据集的迁移学习与域自适应方法,以解决训练数据与测试环境不匹配的问题。这些研究不仅推动了自动调制识别算法的进步,也为无线通信智能化的理论发展提供了实证案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作