radiotalk-us-audio-tada-noisy

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/twangodev/radiotalk-us-audio-tada-noisy

下载链接

链接失效反馈

官方服务：

资源简介：

radiotalk-us-audio-tada-noisy 是一个专为航空通信自动语音识别（ASR）任务设计的带噪音频数据集。它是干净数据集 twangodev/radiotalk-us-audio-tada-clean 的 VHF AM 航空信道降级变体，旨在模拟真实航空通信环境中的信道退化效应。数据集包含 3,365,754 条带噪音频样本，由 1,121,918 条干净语音通过 3 次独立的信道模拟流程生成。每条样本通过一个概率性信道模拟管道处理，该管道根据 ATCO2 语料库的信噪比（SNR）分布（均值约 8 dB，范围 -5 至 +30 dB）进行校准，并遵循 ITU-R M.1084 / DO-186B 航空语音通带标准（300-3400 Hz，6阶巴特沃斯滤波器）。音频格式为 8 kHz 单声道 PCM_16 WAV，以字节形式嵌入在 Parquet 文件的 audio.bytes 字段中，数据被组织成 674 个约 470 MB 的分片。数据集模式是干净数据集的严格超集，保留了所有原始字段（如场景 ID、场景结构、说话人标签、原始和标准化文本、语音 ID、音频字节、令牌时间戳、上游模型信息等），并新增了与信道模拟相关的字段，包括干净行 ID、变体索引、随机种子、配置文件（飞行员或管制员）、应用的效果链、有效 SNR 以及管道版本和指纹。信道模拟流程包括一系列概率性应用的效果，如自动增益控制、饱和、硬剪辑、多径抖动（仅限飞行员）、粉红噪声（SNR 采样）、异频哨声、PTT 按键声、静噪尾音和编解码器往返等，所有处理均在 300-3400 Hz 频带内进行。该数据集适用于开发和评估在噪声和信道退化条件下（特别是航空 VHF AM 环境）的鲁棒 ASR 系统。

radiotalk-us-audio-tada-noisy is a noisy audio dataset specifically designed for automatic speech recognition (ASR) tasks in aviation communications. It is a VHF AM aviation channel degraded variant of the clean dataset twangodev/radiotalk-us-audio-tada-clean, aimed at simulating channel degradation effects in real-world aviation communication environments. The dataset contains 3,365,754 noisy audio samples, generated from 1,121,918 clean speech samples through three independent channel simulation processes. Each sample is processed via a probabilistic channel simulation pipeline calibrated based on the signal-to-noise ratio (SNR) distribution of the ATCO2 corpus (mean around 8 dB, range -5 to +30 dB) and adheres to the ITU-R M.1084 / DO-186B aviation voice passband standard (300-3400 Hz, 6th-order Butterworth filter). The audio format is 8 kHz mono PCM_16 WAV, embedded as bytes in the audio.bytes field of Parquet files, with data organized into 674 shards of approximately 470 MB each. The dataset schema is a strict superset of the clean dataset, preserving all original fields (such as scene ID, scene structure, speaker labels, original and normalized text, utterance ID, audio bytes, token timestamps, upstream model information, etc.) and adding new fields related to channel simulation, including clean row ID, variant index, random seed, profile (pilot or controller), applied effect chain, effective SNR, and pipeline version and fingerprint. The channel simulation process includes a series of probabilistically applied effects, such as automatic gain control, saturation, hard clipping, multipath jitter (pilot-only), pink noise (SNR sampling), heterodyne whistle, PTT keying, squelch tail, and codec round-trip, all processed within the 300-3400 Hz frequency band. This dataset is suitable for developing and evaluating robust ASR systems under noisy and channel-degraded conditions, particularly in aviation VHF AM environments.

创建时间：

2026-05-15

搜集汇总

数据集介绍

构建方式

在航空交通管制（ATC）语音识别领域，真实通信环境中广泛存在的信道退化与噪声干扰是制约系统性能的关键瓶颈。为模拟甚高频（VHF）调幅（AM）通信链路的复杂声学特性，该数据集以合成纯净的美国空中交通管制语音为基干，通过概率型信道仿真流水线构建而成。每条基干语音历经三次随机参数化的信道退化处理，生成共3,365,754条噪声样本。退化过程严格遵循ATCO2语料库的信噪比分布（均值约8 dB，范围-5至+30 dB），并依据ITU-R M.1084/DO-186B标准对航空语音通带（300-3400 Hz）进行六阶巴特沃斯带通滤波。效应链包括自适应增益波动、tanh削波饱和、硬限幅、多径颤振、粉红噪声叠加、外差哨音、PTT按键咔嗒声、静噪尾音及编解码往返等，各效应按不同概率（0.03-0.80）独立触发，且面向飞行员与管制员两类说话人（50/50比例）分别采用均值4 dB与14 dB的不同上行噪声采样策略。

特点

该数据集在航空语音识别领域具有若干突出特性。其一，大规模与高覆盖度：包含超过336万条8 kHz单声道PCM_16格式WAV片段，涵盖1,121,918条纯净语句的三种独立信道实现，并细分为674个Parquet分片（每片约470 MB）。其二，结构完备性：在继承纯净版本全部字段（如场景标识、说话人标签、规范化文本、令牌级时序）基础上，新增clean_row_id、variant_idx、种子码、profile（说话人类别）、applied_effects（效应链列表）、effective_snr_db（实测信噪比）及pipeline_fingerprint（配置哈希值）等11个字段，实现了对退化过程的全参数化回溯。其三，可复现性：每条样本的随机种子由场景标识与变体索引经SHA256哈希生成，确保退化链的确定性再生。其四，物理真实性：噪声谱型与强度校准于真实ATCO2语料，带外能量被有效抑制，使得音频内容在4 kHz以上无残留，完美匹配航空语音识别标准采样率。

使用方法

借助HuggingFace Datasets库可便捷加载与使用。通过`load_dataset`函数并以`streaming=True`模式开启流式读取，能够高效遍历大规模数据而无需预加载至内存。每条样本以字典形式返回，包含文本转录（text）、说话人标识（voice_id）、通信角色（profile）、实测信噪比（effective_snr_db）等元数据，以及内嵌的音频字节（audio.bytes）。由于设计严格遵循纯净版本的超集原则，任何兼容tada-clean的数据加载代码均可无缝对接本数据集，仅需忽略新增字段即可。对于需要精确配对回纯净源的实验（如去噪或信道补偿），可利用clean_row_id与variant_idx字段实现确定性匹配，而非依赖行位置。此外，可基于pipeline_fingerprint对特定配置变体进行联合查询，或利用seed字段在独立随机数生成器中重现任意样本的完整退化过程，满足研究中对单一变量控制的严苛需求。

背景与挑战

背景概述

航空交通管制（ATC）语音识别是自动语音识别领域的一项极具挑战性的任务，其核心困难在于复杂信道环境导致的严重信号退化。由twangodev团队于近年创建的RadioTalk US Audio (Noisy)数据集，旨在为航空通信场景下的鲁棒语音识别研究提供大规模、高保真的模拟数据。该数据集基于合成美国ATC语音，通过一条精确校准的信道模拟流水线，引入噪声、带通滤波、多径等退化效应，其信噪比分布严格参照ATCO2语料库（均值约8 dB，范围-5至+30 dB），并符合ITU-R M.1084/DO-186B航空话音带通标准。数据集的发布填补了航空退化语音领域缺乏大规模基准的空白，为端到端语音识别系统在真实VHF AM信道下的性能评估和鲁棒性增强提供了关键支撑。

当前挑战

该数据集所解决的领域挑战包括：其一，航空通信中的信道退化问题，即VHF AM信道特有的300-3400 Hz带通限制、多径效应、按键噪声、顿挫尾音等退化因素，导致通用语音识别系统性能急剧下降；其二，真实ATC语料标注成本高昂且隐私受限，合成数据虽可扩展但需精确模拟信道效应以避免域偏移。在构建过程中，团队面临的核心挑战在于：如何将概率性信道模拟流水线（包含近十种独立门控效应）的统计特性与真实语料（如ATCO2）的信噪比分布精准对齐；此外，确保3,365,754条退化音频的随机种子可复现（通过SHA256和确定性伪随机数生成器），以支持下游实验的严格对比，同时维持8 kHz单声道PCM格式与主流航空ASR基准（如ATCO2-PL）的一致性。

常用场景

经典使用场景

在航空通信与自动语音识别（ASR）交叉领域，该数据集最为经典的使用场景是训练和评估具有信道退化鲁棒性的航空管制语音识别模型。由于真实甚高频（VHF）AM信道中充斥着带限滤波、粉红噪声、按键咔嗒声、消噪尾音以及多径衰落等复杂干扰，研究者可将该数据集作为基准，以检验模型在极端信噪比（-5至+30 dB）和多重信道效应叠加下的转录准确率。其结构化信道仿真管线保留了每段音频的精确退化参数，使得模型能够学习到从噪声频谱到干净文本的映射关系，从而推动面向实际航空通信场景的鲁棒ASR系统研发。

衍生相关工作

围绕该数据集已催生出一系列具有影响力的衍生研究工作。最为显著的是，它被用于构建航空ASR系统中的数据增强策略基准，研究者通过对比不同信道模拟管线（如是否包含谐波差拍或编解码退化）在特定ASR架构上的效果，优化了面向真实VHF录音的模型迁移学习方法。其次，该数据集的精细退化标注促使了面向信道效应扰动的元学习与对抗训练方法的提出，这些方法通过模仿数据集中pilot与controller双侧的不对称噪声分布，显著提升了模型在未知扰动下的泛化能力。此外，基于该数据集的信噪比与退化类型标签，催生了面向航空通信的可解释语音质量评估指标，推动了通信信道模拟器建模精度的持续迭代。

数据集最近研究