MRSAudio

Name: MRSAudio
Creator: 浙江大学, 上海人工智能实验室
Published: 2025-10-14 11:39:41
License: 暂无描述

arXiv2025-10-14 更新2025-10-15 收录

下载链接：

https://github.com/wolfgitpr/LyricFA https://github.com/flutydeer/audio-slicer

下载链接

链接失效反馈

官方服务：

资源简介：

MRSAudio是一个大规模的多模态记录空间音频数据集，包含四个真实世界场景：MRSLife、MRSSpeech、MRSMusic和MRSSing，每个场景都有多模态的空间音频标注。数据集包括同步的双耳和环绕声音频、外向和内向视频、运动轨迹，以及细粒度的标注，如转录、音素边界、歌词、乐谱和提示。MRSAudio旨在推动空间音频理解和生成研究，支持事件检测、声音定位、双耳或环绕声音频生成等任务。

MRSAudio is a large-scale multimodal recorded spatial audio dataset. It encompasses four real-world scenarios: MRSLife, MRSSpeech, MRSMusic, and MRSSing, each with multimodal spatial audio annotations. The dataset provides synchronized binaural and surround audio, outward and inward-facing videos, motion trajectories, along with fine-grained annotations including transcripts, phoneme boundaries, lyrics, musical scores, and cues. MRSAudio aims to advance research in spatial audio understanding and generation, supporting tasks such as event detection, sound localization, and binaural or surround audio generation.

提供机构：

浙江大学, 上海人工智能实验室

创建时间：

2025-10-12

搜集汇总

数据集介绍

构建方式

在空间音频研究领域，MRSAudio通过系统化模块化规划构建了涵盖日常生活、语音对话、歌唱表演和乐器演奏的四类场景。数据采集采用专业双耳录音头与高分辨率声卡同步记录双耳音频，配合外中心与自我中心视角视频采集，并利用超宽带系统实时追踪声源运动轨迹。标注流程融合自动语音识别与专业人工校对，通过蒙特利尔强制对齐器实现音素级时间对齐，辅以音乐符号转录和三维坐标标注，最终经过多模态同步与质量审计形成标准化数据单元。

特点

该数据集的核心特征体现在其多模态空间音频的完整生态构建。484小时的真实场景录音覆盖双耳与一阶Ambisonic格式，同步整合视频流、三维运动轨迹及细粒度语义标注。四大子集分别针对特定声学场景：MRSLife捕捉日常活动中的环境声事件，MRSSpeech收录44位说话者的室内对话，MRSSing包含多语言专业演唱，MRSMusic涵盖23种中西乐器的独奏表演。独特的空间标注体系包含方位角与仰角的热力分布，辅以音素边界、歌词对齐、乐谱符号等结构化语义信息，为空间听觉建模提供立体化数据支撑。

使用方法

该数据集支持五类基准任务的开发与验证。在音频空间化任务中，研究者可利用单声道音频与位置坐标训练双耳声场生成模型；空间文本转语音任务结合文本输入与运动轨迹合成具身化语音；歌唱合成与音乐生成任务分别通过歌词乐谱与符号注解读取空间声学特征；声事件定位检测任务则融合双耳音频与视觉先验进行多模态联合推理。数据使用需遵循CC BY-NC-SA 4.0许可协议，建议通过官方提供的基准实现框架开展实验，并注意不同子集在声学特性与空间分布上的互补性。

背景与挑战

背景概述

随着虚拟现实与增强现实技术的蓬勃发展，空间音频作为沉浸式体验的核心要素日益受到重视。2025年浙江大学团队发布的MRSAudio数据集，通过整合双耳录音与高阶环绕声技术，构建了涵盖日常生活对话、专业歌唱表演、器乐演奏等四大场景的484小时多模态空间音频资源。该数据集突破了传统单声道音频的局限，首次实现了声源三维轨迹、同步视频流与精细化语义标注的跨模态对齐，为空间音频生成与理解研究提供了关键基础设施。

当前挑战

空间音频领域长期面临真实声场物理特性建模的复杂性挑战，包括双耳时间差与强度差的动态耦合关系、房间混响效应建模等核心问题。在数据集构建过程中，需克服多设备时空同步校准的技术瓶颈，解决动态声源超宽带定位的精度衰减问题，同时通过蒙特利尔强制对齐与人工校验相结合的方式，实现跨语言音素边界与音乐符号的毫米级时序标注，确保多模态数据的物理一致性。

常用场景

经典使用场景

在空间音频研究领域，MRSAudio数据集凭借其484小时的大规模多模态空间音频记录，成为沉浸式音频技术开发的重要基石。该数据集通过整合双耳和全向声场录音、同步视频以及精确的3D位置元数据，为空间音频生成与理解任务提供了前所未有的实验平台。其四个精心设计的子集——涵盖日常对话、专业语音、多语种歌唱和器乐演奏——共同构建了真实世界听觉场景的完整映射，使得研究人员能够在多样化声学环境下验证空间音频模型的泛化能力。

解决学术问题

MRSAudio有效解决了空间音频研究中长期存在的标注稀缺问题，其精细的音素边界、歌词对齐和乐谱标注突破了传统单声道数据集的局限。通过提供同步的空间位置信息和多模态对齐数据，该数据集使研究者能够深入探索双耳线索与视觉信息的交互机制，为声源定位、房间声学建模等基础研究提供了关键数据支撑。特别是在空间文本转语音、空间歌声合成等前沿方向，其丰富的语义标注和空间轨迹数据为建立端到端的空间音频生成系统奠定了坚实基础。

衍生相关工作

基于MRSAudio的丰富标注，研究社区已衍生出多个创新性工作。在空间音频生成方向，BinauralGrad等扩散模型通过利用该数据集的运动轨迹标注，实现了单声道到双耳音频的高质量转换。ISDrama框架则结合文本提示与空间路径条件，开创了端到端的空间戏剧生成新范式。在声音事件检测领域，Transformer架构的引入显著提升了多模态条件下的定位精度，而将视觉先验与音频特征融合的方法则为跨模态空间理解开辟了新途径。这些工作共同推动了空间音频技术从仿真走向实用的关键转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集