RealMAN

Name: RealMAN
Creator: 西湖大学工程学院，北京声希科技有限责任公司，西湖高等研究院先进技术研究所
Published: 2024-06-28 22:47:13
License: 暂无描述

arXiv2024-06-28 更新2024-07-22 收录

下载链接：

https://github.com/Audio-WestlakeU/RealMAN

下载链接

链接失效反馈

官方服务：

资源简介：

RealMAN数据集由西湖大学工程学院和北京声希科技有限责任公司联合创建，是一个大规模的真实录制和注释的麦克风阵列数据集，旨在解决模拟数据与真实世界数据之间的声学不匹配问题。数据集包含83小时的语音信号和144小时的背景噪声，记录在32个不同的场景中，涵盖室内、室外、半室外和交通环境。数据集的创建过程中使用了32通道的高保真麦克风阵列进行录制，并通过全方位鱼眼相机自动检测扬声器的方位角进行注释。该数据集主要应用于语音增强和声源定位算法的研究，特别是在真实场景中的性能评估和模型训练。

The RealMAN Dataset was co-developed by the School of Engineering of Westlake University and Beijing Shengxi Technology Co., Ltd. It is a large-scale microphone array dataset with real-world recordings and annotations, designed to mitigate the acoustic mismatch between simulated data and real-world scenarios. The dataset contains 83 hours of speech signals and 144 hours of background noise, recorded across 32 distinct environments including indoor, outdoor, semi-outdoor, and traffic settings. During its development, the dataset was captured using a 32-channel high-fidelity microphone array, with annotations generated via an omni-directional fisheye camera that automatically detects the azimuth angles of speakers. This dataset is primarily utilized for research on speech enhancement and sound source localization algorithms, particularly for performance evaluation and model training in real-world scenarios.

提供机构：

西湖大学工程学院，北京声希科技有限责任公司，西湖高等研究院先进技术研究所

创建时间：

2024-06-28

原始信息汇总

RealMAN 数据集概述

描述

Real-recorded and annotated Microphone Array speech&Noise (RealMAN) 数据集提供了用于动态语音增强和定位的标注多通道语音和噪声录音：

使用32通道高保真麦克风阵列进行录音
使用扬声器播放源语音信号
总共录制了83小时的语音信号（48小时为静态扬声器，35小时为移动扬声器），并在32个不同场景中录制了144小时的背景噪声
语音和噪声录音场景涵盖了各种常见的室内、室外、半室外和交通环境
使用全方位鱼眼相机标注扬声器的方位角，用于源定位网络的训练
通过使用估计的直线路径传播滤波器过滤播放的语音信号，获得直线路径信号，用于语音增强网络的训练

RealMAN 数据集的价值体现在两个方面：

在真实场景中基准测试语音增强和定位算法
提供大量真实世界训练数据，以潜在地提高真实世界应用的性能

下载

数据集的下载链接包括：

数据集包含以下组件：

文件	大小	描述
`train.rar`	521.76 GB	训练集，包含36.6小时静态扬声器语音和26.6小时移动扬声器语音，106.3小时噪声录音，0通道直线路径语音和声源位置
`val_raw.rar`	65.57 GB	原始验证集，包含4.5小时静态扬声器语音和3.3小时移动扬声器语音，16.0小时噪声录音，0通道直线路径语音和声源位置
`val.rar`	25.57 GB	验证集，包含混合噪声语音录音，0通道直线路径语音和声源位置
`test_raw.rar`	91.75 GB	原始测试集，包含6.9小时静态扬声器语音和4.8小时移动扬声器语音，22.2小时噪声录音，0通道直线路径语音和声源位置
`test.rar`	38.02 GB	测试集，包含混合噪声语音录音，0通道直线路径语音和声源位置
`dataset_info.rar`	127.9 MB	数据集信息文件，包括场景照片、场景信息（T60、录音时长等）和扬声器信息
`transcriptions.trn`	2.4 MB	数据集语音的转录文件

目录结构

数据集的目录结构如下：

RealMAN ├── transcriptions.trn ├── dataset_info │ ├── scene_images │ ├── scene_info.json │ └── speaker_info.csv └── train|val|test|val_raw|test_raw ├── train_moving_source_location.csv ├── train_static_source_location.csv ├── dp_speech │ ├── BadmintonCourt2 │ │ ├── moving │ │ │ ├── 0010 │ │ │ │ ├── TRAIN_M_BAD2_0010_0003.flac │ │ │ │ └── ... │ │ │ └── ... │ │ └── static │ └── ... ├── ma_speech|ma_noisy_speech │ ├── BadmintonCourt2 │ │ ├── moving │ │ │ ├── 0010 │ │ │ │ ├── TRAIN_M_BAD2_0010_0003_CH0.flac │ │ │ │ └── ... │ │ │ └── ... │ │ ├── static │ └── ... └── ma_noise

命名约定如下：

录制信号

[TRAIN|VAL|TEST]_[M|S]_scene_speakerId_utteranceId_channelId.flac

直线路径信号

[TRAIN|VAL|TEST]_[M|S]_scene_speakerId_utteranceId.flac

声源位置

[train|val|test]_[moving|static]_source_location.csv

基准

许可证

数据集采用 Creative Commons Attribution 4.0 International (CC-BY-4.0) 许可证。

搜集汇总

数据集介绍

构建方式

RealMAN数据集的构建旨在解决深度学习多通道语音增强和声源定位系统训练中模拟数据和真实世界数据之间存在的声学不匹配问题。该数据集使用了32通道高保真麦克风阵列进行录音，涵盖了83小时的语音信号和144小时的背景噪声，分别记录在32个和31个不同的场景中。这些场景包括各种常见的室内、室外、半室外和交通环境，以确保数据集的多样性和实用性。为了获得任务特定的注释，使用全向鱼眼相机自动检测扬声器，并注释扬声器的方位角。直接路径信号被设置为语音增强的目标清洁语音，这是通过对源语音信号进行滤波处理得到的。

特点

RealMAN数据集的特点在于其真实性和多样性。与现有的模拟数据相比，使用该数据集训练的语音增强和声源定位网络在真实世界场景中表现出更好的性能。数据集提供了丰富的场景和噪声类型，包括静态和移动的声源，使得训练出的模型能够适应各种不同的环境。此外，RealMAN数据集提供了详细的注释，包括源方位角、直接路径目标清洁语音和语音转录，这对于精确训练和评估至关重要。数据集还包含了32个通道的麦克风阵列，可以提供许多不同的子阵列，用于训练可变阵列网络。

使用方法

使用RealMAN数据集的方法包括以下几个步骤：首先，将数据集分为训练集、验证集和测试集。其次，使用不同的子阵列进行网络训练，以训练可变阵列网络。最后，使用测试集评估网络的性能，并确保网络能够适应未见过的阵列。此外，还可以通过与其他数据集的混合使用，进一步提高网络的鲁棒性和泛化能力。

背景与挑战

背景概述

RealMAN数据集的创建填补了多通道语音增强和源定位系统训练数据匮乏的空白。该数据集由Westlake University的School of Engineering和北京AIShell Technology Co. Ltd合作收集，旨在为动态语音增强和定位提供真实记录和注释的麦克风阵列数据。RealMAN数据集包含83小时的语音信号和144小时的背景噪声，录制于32种不同的场景中，涵盖了室内、室外、半室外和交通环境，为训练通用语音增强和源定位网络提供了大量真实世界的数据。此外，该数据集还提供了详细的源方位角、直接路径目标清晰语音和语音转录的注释，这对于准确训练和评估语音增强和源定位算法至关重要。

当前挑战

RealMAN数据集面临的主要挑战包括：1) 实际场景中的语音增强和源定位算法的基准测试；2) 提供大量真实世界的训练数据，以提高实际应用中的性能。具体挑战包括：1) 真实记录的麦克风阵列数据与模拟数据之间存在声学不匹配，这可能会降低模型在现实世界场景中的性能；2) 现有的真实世界麦克风阵列数据集缺乏多样性和注释的清晰语音和源位置信息；3) 训练与特定数组相关的端到端语音增强和源定位模型通常依赖于特定的数组，这限制了其在不同场景中的应用。

常用场景

经典使用场景

RealMAN数据集主要用于评估动态语音增强和定位算法在实际场景中的性能。该数据集提供了丰富的真实世界记录的语音和噪声数据，包括83小时的语音信号和144小时的背景噪声，涵盖了各种室内、室外、半室外和交通环境。这使得数据集非常适合用于训练和评估通用的语音增强和源定位网络。

衍生相关工作

RealMAN数据集的发布促进了相关领域的研究进展。基于该数据集，研究人员可以开展更多的语音增强和源定位算法研究，探索更有效的训练方法和模型结构。此外，该数据集还催生了可变阵列网络的研究，这种网络可以适应不同的麦克风阵列，从而提高语音增强和源定位系统的泛化能力。

数据集最近研究