Spatial LibriSpeech
收藏Spatial LibriSpeech 数据集概述
数据集描述
Spatial LibriSpeech 是一个空间音频数据集,包含超过 650 小时的一阶全方位音频,以及可选的干扰噪声(19 通道原始音频即将推出)。该数据集旨在用于机器学习模型训练,包含声源位置、说话方向、房间声学和几何结构的标签。Spatial LibriSpeech 是通过对 LibriSpeech 样本进行增强,结合超过 20 万个模拟声学条件和 8000 多个合成房间生成的。
数据集下载
数据集文件托管在以下地址: python3 SLS_URI = "https://docs-assets.developer.apple.com/ml-research/datasets/spatial-librispeech/v1"
可以通过以下方式手动下载元数据: python3 f"{SLS_URI}/metadata.parquet"
使用元数据可以手动下载样本: python3
语音一阶全方位样本
f"{SLS_URI}/ambisonics/{sample_id:06}.flac"
干扰噪声一阶全方位样本
f"{SLS_URI}/noise_ambisonics/{sample_id:06}.flac"
例如,下载元数据和第一个语音样本的命令如下: bash curl -O https://docs-assets.developer.apple.com/ml-research/datasets/spatial-librispeech/v1/metadata.parquet curl -O https://docs-assets.developer.apple.com/ml-research/datasets/spatial-librispeech/v1/ambisonics/000000.flac
注意事项
19 通道语音和干扰噪声样本非常大,目前正在评估最佳托管方式。如果需要这些样本,请联系数据集维护团队。
联系信息
如有任何问题,请联系:




