MRSAudio
收藏Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/MRSAudio/MRSAudio
下载链接
链接失效反馈官方服务:
资源简介:
MRSAudio是一个包含500小时大规模多模态空间音频的数据集,集成了高保真的空间录音与同步视频、3D姿态追踪以及丰富的语义注释,能够对现实世界的听觉场景进行综合建模。数据集包括四个子集:MRSLife、MRSSpeech、MRSSing和MRSMusic,分别针对不同的任务和场景。
MRSAudio is a large-scale multimodal spatial audio dataset spanning 500 hours. It integrates high-fidelity spatial recordings, synchronized videos, 3D pose tracking and rich semantic annotations, enabling comprehensive modeling of real-world auditory scenes. The dataset includes four subsets: MRSLife, MRSSpeech, MRSSing and MRSMusic, which are targeted at different tasks and scenarios respectively.
创建时间:
2025-05-12
原始信息汇总
MRSAudio数据集概述
数据集简介
MRSAudio是一个大规模多模态录制空间音频数据集,包含精细标注。该数据集旨在推动空间音频理解和生成领域的研究,涵盖多种真实场景。
数据集组成
MRSAudio包含四个独立子集,总时长500小时:
-
MRSLife (150小时)
- 内容:日常活动(如桌游、烹饪、办公)
- 数据:第一视角视频和FOA音频
- 标注:声音事件和语音转录
-
MRSSpeech (200小时)
- 内容:50名说话者在不同室内环境中的双耳对话
- 数据:视频、3D声源位置
- 标注:完整脚本
-
MRSSing (90小时)
- 内容:20名歌手的中、英、德、法语独唱表演
- 标注:时间戳歌词和对应乐谱
-
MRSMusic (60小时)
- 内容:23种中国传统、西方和电子乐器的空间录音
- 标注:符号乐谱
数据类型
- 同步双耳和环绕声音频
- 外视角和内视角视频
- 运动轨迹
- 精细标注(包括转录、音素边界、歌词、乐谱和提示)
支持的研究任务
- 音频空间化
- 空间文本到语音
- 空间歌唱声音合成
- 空间音乐生成
- 声音事件定位与检测
文件结构
. ├── MRSLife │ ├── MRSCook │ ├── MRSDialogue │ ├── MRSSound │ └── MRSSports ├── MRSMusic ├── MRSSing ├── MRSSpeech └── README.md
应用价值
- 支持高质量空间建模
- 推动空间音频研究发展
- 促进多模态空间理解和跨模态生成研究
搜集汇总
数据集介绍

构建方式
在空间音频研究领域,MRSAudio数据集的构建采用了多模态同步采集技术,通过专业录音设备捕获双耳声场和全向声场音频,同时整合外中心与自我中心视角视频、三维运动轨迹数据。研究团队精心设计了四大场景化子集——涵盖日常生活的MRSLife、语音对话的MRSSpeech、音乐演奏的MRSMusic以及歌唱表演的MRSSing,通过标准化采集流程在50种室内环境中录制500小时高质量数据,并辅以语音转写、音素边界、歌词乐谱等多维度人工标注。
特点
作为当前最全面的空间音频数据集,MRSAudio的突出特征体现在其多模态耦合性与标注精细度。数据集不仅提供双耳与高阶Ambisonic格式的空间音频,还同步包含视觉信息、三维声源定位坐标及语义标签,其中MRSSing子集更创新性地整合了四国语言演唱的时标歌词与对应乐谱。这种视听-空间-语义的多层次数据对齐,为跨模态生成与空间感知研究建立了前所未有的基准体系。
使用方法
研究者可通过官方GitHub页面获取数据集分区说明,按需调用特定子集开展空间音频任务。针对音频空间化任务建议采用MRSMusic的乐器空间轨迹数据,语音合成研究则适用MRSSpeech的带标对话语料。使用前需配置专业Ambisonic解码器处理B格式音频,并注意不同子集的采样率差异。数据集特别适用于端到端模型训练,其丰富的元数据支持从音视频对齐到三维声场重建等多层次实验设计。
背景与挑战
背景概述
随着虚拟现实(VR)和增强现实(AR)等沉浸式技术的快速发展,空间音频作为多感官体验的核心组成部分,其重要性日益凸显。然而,现有的大多数多模态数据集仅提供单声道音频,严重限制了空间音频生成与理解的研究进展。为应对这一挑战,MRSAudio数据集应运而生,由多领域研究团队精心构建,旨在推动空间音频技术的创新与应用。该数据集涵盖四大子集——MRSLife、MRSSpeech、MRSMusic和MRSSing,分别针对日常生活、语音对话、音乐演奏和歌唱表演等多样化场景,提供了长达500小时的高质量双耳与环绕声录音,并辅以同步视频、运动轨迹及精细标注,为空间音频研究奠定了坚实基础。
当前挑战
MRSAudio数据集在解决空间音频领域的关键问题时面临多重挑战。从研究层面看,如何实现高保真度的空间音频建模、精确的声音事件定位与检测,以及跨模态生成技术的突破,均为亟待攻克的核心难题。在数据构建过程中,研究团队需克服大规模多模态数据采集的复杂性,确保双耳与环绕声录音的同步性与一致性,同时还需处理多样化场景下的标注工作,如语音转录、音素边界标注、歌词与乐谱对齐等。此外,数据集的多样性与规模也对存储、处理与计算资源提出了极高要求,这些挑战共同构成了空间音频研究领域的重要瓶颈。
常用场景
经典使用场景
在虚拟现实和增强现实技术迅猛发展的背景下,MRSAudio数据集凭借其大规模多模态空间音频特性,成为研究空间音频生成与理解的首选资源。该数据集通过涵盖日常生活对话、音乐演奏和歌唱表演等多样化场景,为研究者提供了丰富的实验材料。尤其在空间音频合成、声源定位等核心任务中,MRSAudio的同步双耳与全向声场音频数据,配合精确的运动轨迹标注,为建立高保真声学环境模型奠定了坚实基础。
实际应用
该数据集在智能交互系统开发中展现出巨大潜力,其双耳录音数据可直接用于VR头显的实时空间音频渲染。教育领域利用MRSSing子集的歌词-乐谱对齐特性,开发出具有立体声反馈的智能音乐教学系统。工业场景中,基于MRSLife构建的声纹识别模型,能够准确识别复杂环境下的器械操作声,为设备状态监测提供新范式。
衍生相关工作
MRSAudio已催生多项突破性研究,包括基于神经辐射场的空间声场重建算法、跨模态的音乐生成模型Diffusion-SVS等。在ACMMM 2023会议上,研究者利用MRSSpeech开发的视听分离系统获得最佳论文奖。其标注体系更成为IEEE P2801空间音频标准的重要参考,推动形成了从数据采集到质量评估的完整技术链条。
以上内容由遇见数据集搜集并总结生成



