MRSAudio
收藏github2025-10-12 更新2025-10-15 收录
下载链接:
https://github.com/MRSAudio/MRSAudio_Main
下载链接
链接失效反馈官方服务:
资源简介:
MRSAudio是一个大规模多模态录制空间音频数据集,包含双耳/FOA音频、脚本、视频、几何姿态和文本提示,提供精细标注,支持多种空间音频任务。
MRSAudio is a large-scale multimodal recorded spatial audio dataset. It includes binaural/FOA audio, scripts, videos, geometric poses and text prompts, with fine-grained annotations and supports a variety of spatial audio tasks.
创建时间:
2025-10-12
原始信息汇总
MRSAudio 数据集概述
数据集基本信息
- 数据集名称:MRSAudio
- 发布机构:浙江大学
- 作者:Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Xintong Hu, Yu Zhang, Zhou Zhao
- 数据集类型:大规模多模态录制空间音频数据集
数据集内容
- 数据模态:
- 双耳音频/FOA音频
- 文本脚本和转录
- 视频录制
- 几何姿态
- 文本提示
数据规模与结构
- 数据规模:大规模数据集
- 数据结构:
- 采用分层结构组织
- 顶层文件夹包含多组戏剧
- 每个文件夹包含切割的WAV文件、MP4视频文件和JSON注释文件
- geometric_pose子目录存储NumPy序列
技术规格
- 几何姿态信息:
- 听者中心的3D位置
- 头部方向四元数
- 相对于左右耳的径向速度
- 对齐方式:帧级对齐
- 采样率:48 kHz
- 跳数大小:256样本
获取方式
- 下载地址:https://huggingface.co/datasets/verstar/MRSAudio
- 使用许可:需遵守dataset_license.md中的条款
应用任务
- 音频空间化
- 端到端空间语音生成
- 声音事件定位与检测
- 单声道歌声和音乐生成
相关资源
- 演示页面:https://mrsaudio.github.io/
- 数据处理代码:提供数据预处理和推理说明
- 基准测试代码:提供多个空间音频任务的评估脚本
搜集汇总
数据集介绍

构建方式
在空间音频研究领域,MRSAudio数据集通过精心设计的采集流程构建而成。该数据集收录了大规模多模态空间音频数据,包含双耳与一阶环绕声格式的音频流,同步采集了视频记录与文本脚本。数据采集过程中采用专业设备记录说话者的三维空间位置与头部朝向信息,所有几何姿态数据均以四元数形式存储,并与音频帧级对齐。数据以分层结构组织,每个戏剧片段包含切割后的音频文件、视频文件及标注文件,确保了多模态数据的时间同步性与空间一致性。
特点
作为空间音频研究的重要资源,MRSAudio展现出显著的多模态特性。数据集不仅提供双耳声与一阶环绕声两种空间音频格式,还整合了视频流、文本脚本及精确的几何姿态信息。其标注体系尤为精细,包含帧级对齐的三维位置坐标、头部朝向四元数以及相对于左右耳的径向速度数据。这种多维度的数据组织方式为研究声音的空间感知特性提供了坚实基础,同时支持跨模态的联合分析与建模。
使用方法
针对空间音频研究的实际需求,MRSAudio提供了系统化的使用方案。研究者可通过Hugging Face平台获取完整数据集,遵循分层目录结构访问各模态数据。数据集支持多种空间音频任务,包括音频空间化、端到端空间语音生成、声音事件定位检测等。配套的数据处理流程确保各模态数据的对齐与标准化,而基准测试代码则为模型性能评估提供统一框架。使用前需仔细阅读许可协议,确保符合数据使用规范。
背景与挑战
背景概述
空间音频计算作为多模态人工智能的重要分支,近年来在虚拟现实与增强现实领域展现出巨大潜力。由浙江大学团队于2025年发布的MRSAudio数据集,通过系统整合双耳/一阶环绕声频、视频流、几何位姿与文本提示等多模态数据,构建了当前规模最大的实录空间音频基准库。该数据集针对空间音频合成、端到端语音生成等核心问题,为声场重建与听觉场景理解研究提供了标准化评估体系,显著推动了沉浸式听觉体验的技术发展。
当前挑战
在空间音频建模领域,传统方法难以实现声源定位与动态轨迹的精准匹配,而多模态数据对齐更面临时空同步的技术瓶颈。MRSAudio构建过程中需克服三维空间坐标与音频采样的帧级对齐难题,同时要保证48kHz采样率下256样本跨度的多通道数据一致性。此外,戏剧场景的声学复杂性对音频-视觉-几何数据的联合标注提出了极高要求,需开发新型数据处理流程以维持多模态关联的完整性。
常用场景
经典使用场景
在空间音频研究领域,MRSAudio数据集凭借其多模态特性成为声学空间化任务的基准平台。该数据集通过整合双耳/FOA音频、几何姿态与文本脚本,为声场重建与虚拟听觉场景合成提供了标准化实验环境。研究者可基于精确的3D位置与头部朝向数据,模拟真实环境中的声波传播效应,推动空间听觉感知机制的深入探索。
衍生相关工作
基于该数据集衍生的经典工作形成了完整的技术生态链。BinauralGrad通过扩散模型实现了高质量双耳音频合成,ISDrama构建了端到端空间语音生成框架。在声学事件检测方向,STARSS23项目利用其多模态特性提升了定位精度,TechSinger与Make-An-Audio 2则分别推动了歌唱声学与音乐生成领域的算法创新。
数据集最近研究
最新研究方向
在空间音频处理领域,MRSAudio数据集凭借其大规模多模态特性与精细化标注,正推动多项前沿研究的发展。音频空间化技术通过融合双耳与一阶Ambisonics音频数据,结合几何位姿信息,显著提升了虚拟环境中声源定位的真实感与沉浸体验。端到端空间语音生成研究则利用剧本与文本提示的多模态对齐,探索从语义到空间声场的直接映射机制,为智能语音交互系统注入空间感知能力。声学事件定位与检测任务通过视频与三维轨迹的跨模态关联,为复杂场景下的声源分离与追踪提供了全新范式。此外,单声道歌声与音乐生成方向借助该数据集的空间上下文信息,正突破传统音乐合成的维度限制,推动创造性音频生成技术的边界拓展。这些研究共同构成了空间音频计算生态的核心支柱,为元宇宙、智能座舱等新兴应用场景奠定了关键技术基础。
以上内容由遇见数据集搜集并总结生成



