Spatial LibriSpeech

arXiv2023-08-18 更新2024-07-24 收录

下载链接：

https://github.com/apple/ml-spatial-librispeech

下载链接

链接失效反馈

官方服务：

资源简介：

Spatial LibriSpeech是由苹果公司创建的一个空间音频数据集，包含超过650小时的19通道音频，用于机器学习模型训练。该数据集通过增强LibriSpeech样本，模拟了200k+声学条件和8k+合成房间，提供了源位置、说话方向、房间声学和几何的标签。数据集的创建过程包括参数化房间生成、房间脉冲响应模拟和混合。Spatial LibriSpeech旨在成为空间音频应用的主要训练数据集，适用于3D源定位、源距离、直接到混响比率估计等基本空间音频检测任务。

Spatial LibriSpeech is a spatial audio dataset created by Apple Inc., containing over 650 hours of 19-channel audio for machine learning model training. This dataset augments LibriSpeech samples by simulating more than 200,000 acoustic conditions and over 8,000 synthetic rooms, providing labels for source position, speaker direction, room acoustics and geometry. The dataset creation process includes parametric room generation, room impulse response simulation and mixing. Spatial LibriSpeech aims to become the primary training dataset for spatial audio applications, suitable for fundamental spatial audio detection tasks such as 3D source localization, source distance estimation, and direct-to-reverberation ratio estimation.

提供机构：

苹果

创建时间：

2023-08-18

原始信息汇总

Spatial LibriSpeech 数据集概述

数据集描述

Spatial LibriSpeech 是一个空间音频数据集，包含超过 650 小时的一阶全方位音频，以及可选的干扰噪声（19 通道原始音频即将推出）。该数据集旨在用于机器学习模型训练，包含声源位置、说话方向、房间声学和几何结构的标签。Spatial LibriSpeech 是通过对 LibriSpeech 样本进行增强，结合超过 20 万个模拟声学条件和 8000 多个合成房间生成的。

数据集下载

数据集文件托管在以下地址： python3 SLS_URI = "https://docs-assets.developer.apple.com/ml-research/datasets/spatial-librispeech/v1"

可以通过以下方式手动下载元数据： python3 f"{SLS_URI}/metadata.parquet"

使用元数据可以手动下载样本： python3

语音一阶全方位样本

f"{SLS_URI}/ambisonics/{sample_id:06}.flac"

干扰噪声一阶全方位样本

f"{SLS_URI}/noise_ambisonics/{sample_id:06}.flac"

例如，下载元数据和第一个语音样本的命令如下： bash curl -O https://docs-assets.developer.apple.com/ml-research/datasets/spatial-librispeech/v1/metadata.parquet curl -O https://docs-assets.developer.apple.com/ml-research/datasets/spatial-librispeech/v1/ambisonics/000000.flac

注意事项

19 通道语音和干扰噪声样本非常大，目前正在评估最佳托管方式。如果需要这些样本，请联系数据集维护团队。

联系信息

如有任何问题，请联系：

spatial-librispeech-dataset@group.apple.com

搜集汇总

数据集介绍

构建方式

在空间音频研究领域，构建大规模且多样化的数据集对于推动机器学习模型的发展至关重要。Spatial LibriSpeech 的构建基于对 LibriSpeech 语音样本的空间增强，通过模拟合成房间中的声学条件来实现。具体流程包括参数化房间生成、房间脉冲响应模拟以及混合处理：首先，根据常见生活空间的声学特性生成 8,952 个合成房间，并利用几何声学求解器计算包含 19 通道麦克风阵列的脉冲响应；随后，将 LibriSpeech 样本与这些脉冲响应进行卷积，并调整至特定的语音活动水平，同时可选地加入来自 Microsoft Deep Noise Suppression Challenge 的干扰噪声，最终生成超过 650 小时的多通道音频数据，并附带源位置、说话方向、房间声学与几何等多类标签。

特点

Spatial LibriSpeech 在现有空间音频数据集中展现出显著的规模与多样性优势。该数据集包含超过 20 万种独特配置，覆盖从 13.3 平方米到 277.4 平方米的房间面积范围，以及混响时间 T30 从 145 毫秒至 2846 毫秒的广泛声学条件。其音频以 19 通道原始麦克风阵列信号和全带宽一阶 Ambisonics 格式提供，确保了设备无关的灵活性。此外，数据集提供了丰富的标注信息，包括源方位角、仰角、距离、说话方向、房间体积、窄带声学参数如 C50、DRR、EDT、T20 和 T30 等，支持从源参数估计到环境参数估计的多种空间音频任务，为多任务学习和对比表征学习等现代机器学习技术提供了坚实基础。

使用方法

Spatial LibriSpeech 专为机器学习模型训练设计，适用于多种空间音频任务。研究人员可利用其多通道音频数据训练模型，例如三维源定位、距离估计、直接混响比和混响时间预测。数据集以标准分割提供训练集与测试集，用户可直接加载音频及对应标签进行端到端训练。为验证模型泛化能力，建议在训练后使用外部评估数据集如 TUT Sound Events 2018 和 ACE Challenge 进行测试，必要时可对特定任务进行微调。此外，数据集还提供了 10% 的均匀采样子集，便于快速原型设计与实验探索，支持声学条件消融研究或表征学习等进阶应用。

背景与挑战

背景概述

空间音频学习作为声学信号处理的前沿领域，致力于赋予机器感知三维声场的能力，如声源定位、房间声学参数估计等。2023年，苹果公司研究团队发布了Spatial LibriSpeech数据集，旨在填补大规模、多任务空间音频训练数据的空白。该数据集基于经典的LibriSpeech语音语料库，通过声学仿真技术生成了超过650小时的多通道音频，涵盖近九千个合成房间的声学条件，并提供了声源位置、说话方向、房间混响时间等丰富标注。其核心研究问题在于构建一个通用性强、多样性高的基准数据集，以支持机器学习模型在复杂声学环境中的泛化能力，为空间音频检测、环境感知等任务的研究提供了关键数据支撑，推动了声学人工智能的发展。

当前挑战

在空间音频领域，传统数据集常受限于规模小、标注单一或声学条件不足，难以训练出鲁棒的多任务模型。Spatial LibriSpeech旨在解决这一根本挑战，通过大规模仿真生成多样化的声学场景，以应对声源三维定位、距离估计、混响参数预测等复杂任务的模型训练需求。在构建过程中，研究团队面临多重技术挑战：一是需精确模拟真实房间的声学特性，包括材料吸收、散射系数及几何结构，以确保仿真脉冲响应的物理真实性；二是需高效处理数十万声学配置与语音样本的卷积混合，同时保持音频质量与标注一致性；三是需平衡数据多样性（如混响时间范围、房间尺寸）与计算可行性，以生成既全面又实用的训练资源。这些挑战的克服，为空间音频学习奠定了坚实的数据基础。

常用场景

经典使用场景

在空间音频学习领域，Spatial LibriSpeech 数据集被广泛应用于多任务模型的训练与评估。该数据集通过模拟超过 8,952 个合成房间的声学条件，生成了超过 650 小时的 19 通道音频及一阶 Ambisonics 格式数据，并附带了声源位置、说话方向、房间声学参数和几何结构等丰富标签。其经典使用场景包括训练神经网络进行三维声源定位、距离估计、直接-混响比（DRR）和混响时间（T30）的回归分析，为空间音频感知任务提供了大规模、多样化的训练基础。

实际应用

在实际应用中，Spatial LibriSpeech 为智能语音助手、增强现实（AR）音频渲染、会议系统降噪及室内声学分析等场景提供了关键数据支持。例如，基于该数据集训练的模型可应用于智能音箱的声源定位，实现精准的语音唤醒与跟踪；在 AR 设备中，模型能够实时估计房间混响特性，优化空间音频渲染的真实感。此外，该数据集还可用于声学环境监测，如通过音频信号分析房间的吸声特性，为建筑声学设计提供数据驱动的评估工具。

衍生相关工作

Spatial LibriSpeech 的发布催生了一系列围绕空间音频学习的衍生研究。例如，基于该数据集的预训练模型被用于声源分离、去混响和波束成形等任务的迁移学习；部分工作探索了多任务共享嵌入的表征学习框架，以统一模型同时预测声源位置、距离及房间参数。此外，该数据集还促进了与 TUT Sound Events 2018、ACE Challenge 等现有评估集的对比研究，推动了空间音频模型泛化能力的标准化评测，为后续大规模空间音频数据集的构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集