synthetic_maritime_radio_communication
收藏Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/bonalor/synthetic_maritime_radio_communication
下载链接
链接失效反馈官方服务:
资源简介:
MARTTS是一个开源的合成语音语料库,专门设计用于评估和压力测试在海上VHF无线电话环境中运行的自动语音识别(ASR)系统。数据集包含240个现实的多说话者遇险、紧急、搜救和常规海上对话,通过SMCP兼容模板、基于LLM的场景生成、AIS衍生的船名、MMSI标识符和位置、使用Chatterbox TTS模型合成以及多阶段无线电后处理管道生成。数据集模拟了真实的VHF操作条件,包括信道伪影、背景噪声、环境船舶噪声、丢失、静噪点击和带限。该数据集旨在在真实海上条件下压力测试和验证ASR系统,这些条件下真实数据稀缺或敏感。
创建时间:
2025-12-11
原始信息汇总
MARTTS: Maritime Radio Text-To-Speech Synthetic Corpus 数据集概述
基本信息
- 数据集名称: MARTTS (Maritime Radio Text-To-Speech Synthetic Corpus)
- 许可证: CC-BY 4.0
- 任务类别: 文本分类、文本到语音、自动语音识别
- 标签: 合成数据
- 数据规模: 小于1K样本
- 语言: 英语
- 官方名称: MARTTS
数据集摘要
MARTTS是一个开源的合成语音语料库,旨在评估和压力测试在海上VHF无线电话环境中运行的自动语音识别系统。该数据集包含240个现实的多说话者遇险、紧急、搜救和常规海上对话,通过以下方式生成:
- 符合SMCP的模板
- 基于LLM的场景生成
- 源自AIS的船名、MMSI标识符和位置
- 使用Chatterbox TTS模型合成
- 多阶段无线电后处理流水线
该数据集模拟了真实的VHF操作条件,包括信道伪影、背景噪声、环境船舶噪声、信号丢失、静噪点击和频带限制。它旨在在真实数据稀缺或敏感的现实海事条件下,对ASR系统进行压力测试和验证。
核心生成流程
1. 场景生成
- 使用SMCP模板和LLM生成对话。
- 遇险情况包括:火灾/爆炸、进水、沉没、碰撞、搁浅、PAN PAN及搜救协调。
- LLM生成的对话包含船名、MMSI和位置的占位符,这些占位符使用真实的AIS衍生值填充。
2. 领域特定文本规范化
- 自定义文本规范化流水线确保正确的海事风格发音。
- 示例:
ETA→E T A13:45→thirteen forty five U T CMV Aurora→M V Aurora52.1234 N→five two point one two three four degrees north
3. 音频合成与说话者分析
- 每个话语的Chatterbox参数采样为:
exag ~ N(0.65, 0.08²)cfg ~ N(0.45, 0.08²)
- 说话者可选地从VCTK克隆(5-15秒样本)。
- 话语间停顿从截断的对数正态分布中采样:
- μ = 500 ms, σ = 0.4
- 范围 = 50 ms 到 2 s 之间
4. VHF后处理流水线
应用的转换包括:
- 说话者变化(音高、增益、拉伸)
- 频带限制
- 真实海上背景噪声
- 环境船舶噪声(ESC-50:海浪、风、引擎、雨、雷声)
- 无线电嘶嘶声
- 按键通话静噪点击
- 信号丢失/衰减事件
数据集许可证与组件
- 主数据集许可证: CC-BY 4.0
- Chatterbox TTS: MIT许可证 (https://opensource.org/licenses/MIT)
- CSTR VCTK语料库: CC-BY 4.0许可证 (https://creativecommons.org/licenses/by/4.0/)
- ESC-50环境声音数据集: CC-BY 4.0许可证 (https://creativecommons.org/licenses/by/4.0/)
- 海上无线电对话(桥对桥): Kaggle数据集许可证 (https://www.kaggle.com/terms)
搜集汇总
数据集介绍

构建方式
在海上甚高频无线电通信领域,真实数据常因敏感性与稀缺性难以获取,MARTTS数据集的构建采用了一种创新的合成方法。该过程始于基于标准海事通信短语(SMCP)的模板与大型语言模型生成的情景对话,其中嵌入了由自动识别系统(AIS)提取的真实船舶名称、海事移动服务识别码(MMSI)及位置信息。随后,利用Chatterbox文本转语音模型进行音频合成,并引入多阶段的后处理流程,模拟了包括信道伪影、背景噪声、环境船舶声响以及信号丢失等真实无线电操作条件,从而生成高度仿真的多说话人通信数据。
特点
MARTTS数据集的核心特点在于其高度仿真的合成性质,专门针对海事甚高频无线电通信环境设计。它涵盖了240段模拟真实操作的多说话人对话,包括遇险、紧急、搜救协调及常规通信等多种情景,严格遵循海事通信规范。数据集通过领域特定的文本归一化处理,确保了海事缩写与数字的正确发音,避免了转录漂移。音频层面则融合了说话人变异、带宽限制、真实海洋背景噪声及无线电特有的嘶嘶声与按键咔嗒声,全面再现了复杂信道条件下的声学特征,为自动语音识别系统的鲁棒性评估提供了极具挑战性的测试基准。
使用方法
该数据集主要服务于自动语音识别系统在特定海事环境下的性能评估与压力测试。研究人员可利用其合成音频及对应文本转录,系统性地评估ASR模型在模拟真实无线电干扰、噪声和多说话人场景下的识别准确率与鲁棒性。数据集的结构化设计支持直接用于模型训练或作为独立的测试集,以弥补真实数据不足的缺陷。在使用时,需注意其合成数据的本质,并结合其他真实或仿真数据以进行全面验证,同时应遵守CC-BY 4.0许可协议,妥善引用相关组件来源。
背景与挑战
背景概述
在航海安全与通信技术领域,海事甚高频无线电通信的自动语音识别系统评估长期面临真实数据稀缺且敏感的困境。为应对这一挑战,MARTTS数据集应运而生,由相关研究团队于近期创建,并作为开源合成语音语料库公开发布。该数据集的核心研究问题聚焦于生成高度仿真的海事遇险、紧急、搜救及常规对话音频,旨在为ASR系统在复杂海事环境下的鲁棒性评估提供标准化测试基准。通过整合标准海事通信短语规范、大语言模型场景生成以及真实船舶自动识别系统数据,MARTTS不仅填补了该领域公开合成数据的空白,也为海事通信智能化与安全保障研究提供了关键的数据支撑。
当前挑战
MARTTS数据集致力于解决海事甚高频无线电通信环境下自动语音识别的领域挑战,主要包括在强噪声、信号衰减、带宽限制及多说话人交互等复杂条件下实现高精度语音转文本的难题。在构建过程中,研究团队面临多重技术挑战:其一,需设计领域专用的文本规范化流程,以确保海事缩写、坐标、时间等专业术语的正确发音,避免转录漂移;其二,合成音频必须通过多级后处理管道模拟真实无线电信道伪影、环境船舶噪声、压扩咔嗒声及信号丢失等效应,以逼近操作场景的声学特性;其三,在缺乏大规模真实对话数据的情况下,依赖合成方法生成多样且符合通信协议的多说话人对话,同时保持语音的自然度与场景的合理性,这对生成模型的泛化能力提出了较高要求。
常用场景
经典使用场景
在航海通信领域,自动语音识别系统面临真实数据稀缺与敏感性的挑战。MARTTS数据集通过合成技术模拟了海事甚高频无线电通信环境,其经典使用场景在于为ASR系统的鲁棒性评估提供标准化测试平台。该数据集包含240段多说话人对话,覆盖遇险、紧急、搜救及常规通信,并融入信道伪影、背景噪声等真实操作条件,使研究者能够在受控环境下系统性地检验模型对海事术语、噪声干扰和信号衰减的识别能力。
实际应用
在实际应用层面,MARTTS数据集可直接服务于航海安全系统的开发与优化。例如,在船舶交通管理、遇险自动报警和海上搜救协调中,集成该数据集训练的ASR模型能够提升语音指令的实时转写准确率,增强对嘈杂无线电环境中关键信息的捕捉能力。此外,它还可用于仿真训练系统,帮助操作人员熟悉标准化通信流程,或作为测试套件嵌入海事通信设备的质量评估环节。
衍生相关工作
围绕MARTTS数据集,已衍生出多项聚焦于噪声鲁棒语音识别与领域自适应技术的研究。经典工作包括基于该数据集的端到端ASR模型对抗训练方法、针对海事术语的专用语言模型微调策略,以及利用合成数据增强真实场景泛化能力的迁移学习框架。这些研究进一步拓展了合成语音数据在专业领域评估中的有效性验证,并为后续海事多模态通信系统的开发提供了技术参照。
以上内容由遇见数据集搜集并总结生成



