RealMAN
收藏RealMAN 数据集概述
描述
Real-recorded and annotated Microphone Array speech&Noise (RealMAN) 数据集提供了用于动态语音增强和定位的标注多通道语音和噪声录音:
- 使用32通道高保真麦克风阵列进行录音
- 使用扬声器播放源语音信号
- 总共录制了83小时的语音信号(48小时为静态扬声器,35小时为移动扬声器),并在32个不同场景中录制了144小时的背景噪声
- 语音和噪声录音场景涵盖了各种常见的室内、室外、半室外和交通环境
- 使用全方位鱼眼相机标注扬声器的方位角,用于源定位网络的训练
- 通过使用估计的直线路径传播滤波器过滤播放的语音信号,获得直线路径信号,用于语音增强网络的训练
RealMAN 数据集的价值体现在两个方面:
- 在真实场景中基准测试语音增强和定位算法
- 提供大量真实世界训练数据,以潜在地提高真实世界应用的性能
下载
数据集的下载链接包括:
数据集包含以下组件:
| 文件 | 大小 | 描述 |
|---|---|---|
train.rar |
521.76 GB | 训练集,包含36.6小时静态扬声器语音和26.6小时移动扬声器语音,106.3小时噪声录音,0通道直线路径语音和声源位置 |
val_raw.rar |
65.57 GB | 原始验证集,包含4.5小时静态扬声器语音和3.3小时移动扬声器语音,16.0小时噪声录音,0通道直线路径语音和声源位置 |
val.rar |
25.57 GB | 验证集,包含混合噪声语音录音,0通道直线路径语音和声源位置 |
test_raw.rar |
91.75 GB | 原始测试集,包含6.9小时静态扬声器语音和4.8小时移动扬声器语音,22.2小时噪声录音,0通道直线路径语音和声源位置 |
test.rar |
38.02 GB | 测试集,包含混合噪声语音录音,0通道直线路径语音和声源位置 |
dataset_info.rar |
127.9 MB | 数据集信息文件,包括场景照片、场景信息(T60、录音时长等)和扬声器信息 |
transcriptions.trn |
2.4 MB | 数据集语音的转录文件 |
目录结构
数据集的目录结构如下:
RealMAN ├── transcriptions.trn ├── dataset_info │ ├── scene_images │ ├── scene_info.json │ └── speaker_info.csv └── train|val|test|val_raw|test_raw ├── train_moving_source_location.csv ├── train_static_source_location.csv ├── dp_speech │ ├── BadmintonCourt2 │ │ ├── moving │ │ │ ├── 0010 │ │ │ │ ├── TRAIN_M_BAD2_0010_0003.flac │ │ │ │ └── ... │ │ │ └── ... │ │ └── static │ └── ... ├── ma_speech|ma_noisy_speech │ ├── BadmintonCourt2 │ │ ├── moving │ │ │ ├── 0010 │ │ │ │ ├── TRAIN_M_BAD2_0010_0003_CH0.flac │ │ │ │ └── ... │ │ │ └── ... │ │ ├── static │ └── ... └── ma_noise
命名约定如下:
录制信号
[TRAIN|VAL|TEST]_[M|S]_scene_speakerId_utteranceId_channelId.flac
直线路径信号
[TRAIN|VAL|TEST]_[M|S]_scene_speakerId_utteranceId.flac
声源位置
[train|val|test]_[moving|static]_source_location.csv
基准
许可证
数据集采用 Creative Commons Attribution 4.0 International (CC-BY-4.0) 许可证。

- 1RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization西湖大学工程学院,北京声希科技有限责任公司,西湖高等研究院先进技术研究所 · 2024年



