RescueSpeech

Name: RescueSpeech
Creator: 德国人工智能研究中心
Published: 2023-09-25 16:00:05
License: 暂无描述

arXiv2023-09-25 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/8077622

下载链接

链接失效反馈

官方服务：

资源简介：

RescueSpeech是一个专为搜索与救援（SAR）领域设计的德语语音数据集，由德国人工智能研究中心创建。该数据集包含约2小时的标注语音材料，来源于模拟救援演习中的真实语音记录。数据集的创建过程包括录音、降采样、分割和手动转录。RescueSpeech主要用于支持决策者和过程监控者在灾难情况下的工作，通过自动语音识别（ASR）输出与自然语言理解（NLU）组件结合，提取任务相关信息，辅助救援行动。

RescueSpeech is a German-language speech dataset tailored for the search and rescue (SAR) domain, developed by the German Research Center for Artificial Intelligence. It contains approximately 2 hours of annotated speech data sourced from real recordings made during simulated rescue exercises. The dataset was constructed through audio recording, downsampling, segmentation, and manual transcription. Primarily intended to support decision-makers and process monitors in their work during disaster scenarios, RescueSpeech combines automatic speech recognition (ASR) outputs with natural language understanding (NLU) components to extract task-relevant information and assist rescue operations.

提供机构：

德国人工智能研究中心

创建时间：

2023-06-07

搜集汇总

数据集介绍

构建方式

RescueSpeech数据集源自真实模拟搜救演习中的语音记录，由消防员在高压情境下（如火灾、爆炸等）以德语进行团队通信。原始录音以44.1 kHz采样率采集，后降采样至16 kHz，并分割为单说话人单声道音频片段，所有语句均经人工转写。为增强鲁棒性，研究团队还构建了噪声版本，通过混入AudioSet中的五种典型搜救噪声（如警笛、引擎声、直升机噪声等）及真实与合成房间冲激响应，生成信噪比在-5 dB至15 dB之间的多样化噪声语音，最终形成包含1591/245/576条语句的训练/验证/测试集，总时长约1.6小时。

使用方法

数据集支持多种训练范式：可直接用于微调预训练的序列到序列模型（如CRDNN）或基于连接主义时间分类的模型（如wav2vec2.0、WavLM、Whisper），亦可结合前端语音增强模块（如SepFormer）进行独立或联合训练。研究团队在SpeechBrain工具包中公开了完整的训练配方与预训练模型，用户可加载RescueSpeech的干净或噪声版本，通过多条件训练或增强-识别联合优化策略，针对性地提升模型在搜救场景下的词错误率性能。

背景与挑战

背景概述

自动语音识别（ASR）技术在搜索与救援（SAR）领域具有关键作用，然而在极端嘈杂、充满情感压力的对话环境中，现有系统面临显著性能瓶颈。为填补该领域数据稀缺的空白，德国萨尔大学、康考迪亚大学及德国人工智能研究中心（DFKI）的研究人员于2023年联合创建了RescueSpeech数据集。该数据集收录了约1.6小时、来自模拟救援演习中消防队员的真实德语对话录音，包含2412条手动标注的语句，并衍生出含五种特定噪声（如警笛、直升机声）的嘈杂版本，旨在支持噪声鲁棒语音识别与增强模型的开发。RescueSpeech是首个公开的SAR领域语音数据集，其发布为多模态决策支持系统（如融合GPS与自然语言理解）提供了关键基准，推动了灾害场景下人机协同技术的进步。

当前挑战

RescueSpeech所应对的核心挑战在于SAR环境下语音识别的多重复杂性交织：对话具有快速、情感化且紧张的特征，同时声学环境被非平稳噪声（如引擎轰鸣、无线电干扰）和混响严重污染，导致传统ASR系统性能急剧下降。在构建过程中，数据采集面临隐私限制与场景模拟难度，仅能获取少量真实录音；为增强鲁棒性，团队需人工合成多信噪比（-5至15 dB）的噪声版本，并确保训练集与测试集噪声类型互斥。实验表明，即便采用Whisper等先进模型，最佳词错误率（WER）仍高达45.29%，凸显出在极端噪声与低资源条件下实现可靠转录的艰巨性，亟需更高效的声学模型与增强策略。

常用场景

经典使用场景

RescueSpeech数据集最经典的使用场景在于为搜索与救援（SAR）领域中的噪声鲁棒性语音识别提供标准化基准。该数据集包含真实消防员在模拟救援演习中的对话录音，涵盖高应激情绪、无线电通信风格以及复杂背景噪声（如警笛、引擎声、直升机声等），为研究者提供了评估和提升语音识别系统在极端声学环境下性能的稀缺资源。

解决学术问题

该数据集解决了SAR领域长期存在的学术研究难题：缺乏公开的、标注精细的、真实场景下的语音数据，导致难以训练和评估在噪声、混响及情感化对话条件下的鲁棒语音识别模型。RescueSpeech填补了这一空白，使研究者能够系统性地探究多条件训练、语音增强与ASR联合优化等策略对极端环境识别精度的提升效果，推动了噪声鲁棒性语音识别理论的边界拓展。

实际应用

在实际应用中，RescueSpeech支撑了灾难响应中的实时决策支持系统。通过将ASR输出的转录文本与自然语言理解模块融合，并结合来自机器人或无人机的GPS等传感器数据，系统能够从救援团队对话中自动提取关键任务信息，如伤员位置、设备状态等，从而为指挥中心提供态势感知辅助，提升救援行动的效率与安全性。

数据集最近研究