MRSDrama

Name: MRSDrama
Creator: 浙江工业大学
Published: 2025-04-29 18:56:44
License: 暂无描述

arXiv2025-04-29 更新2025-05-01 收录

下载链接：

https://aaronz345.github.io/ISDramaDemo

下载链接

链接失效反馈

官方服务：

资源简介：

MRSDrama数据集是首个多模态记录的空间戏剧数据集，包含双耳戏剧音频、剧本、视频、几何姿态和文本提示。数据集包含由21位演讲者在三个场景中录制的97.82小时的语音数据，旨在解决多模态沉浸式空间戏剧生成任务中的数据收集成本高、统一姿态表示提取困难、戏剧韵律和空间沉浸式建模难度大等挑战。该数据集适合各种任务，如双耳定位和戏剧生成，并通过多模态提示生成高质量、连续、多说话人双耳语音，具有戏剧韵律和空间沉浸感。

The MRSDrama dataset is the first multimodally recorded spatial theater dataset, which contains binaural theater audio, scripts, videos, geometric poses, and text prompts. It encompasses 97.82 hours of speech data recorded by 21 speakers across three scenarios, aiming to address the core challenges in multimodal immersive spatial theater generation tasks, including high data collection costs, difficulties in extracting unified pose representations, and challenges in modeling theatrical prosody and spatial immersion. This dataset is suitable for various tasks such as binaural localization and theater generation, and can generate high-quality, continuous, multi-speaker binaural speech with theatrical prosody and spatial immersion via multimodal prompts.

提供机构：

浙江工业大学

创建时间：

2025-04-29

原始信息汇总

ISDrama数据集概述

数据集基本信息

名称: ISDrama (Immersive Spatial Drama Generation through Multimodal Prompting)
类型: 多模态空间戏剧生成数据集
数据量: 97.82小时语音数据
录制者: 21位说话人
场景数量: 3个

数据内容

包含数据类型:
- 双耳戏剧音频
- 剧本文本
- 视频
- 几何姿势数据
- 文本提示

模型概述

模型名称: ISDrama
主要组件:
1. 多模态姿势编码器(Multimodal Pose Encoder)
2. 沉浸式戏剧变换器(Immersive Drama Transformer)
关键特征:
- 基于对比学习的框架
- 考虑移动说话人引起的多普勒效应
- 流式Mamba-Transformer架构
- 包含Drama-MOE(专家混合)模块
- 采用上下文一致的无分类器指导策略

演示案例

1. 无声视频生成结果

案例1: Henry IV
案例2: Waiting for Godot
案例3: Troilus and Cressida

2. 几何姿势生成结果

案例1: Self-accusation
案例2: Measure for Measure
案例3: Persian
案例4: Waiting for Godot

3. 文本提示生成结果

案例1: Offending the Audience
案例2: Hiroshima Mon Amour
案例3: Waiting for Godot

评估指标

音频质量: 成功学习音色和韵律
空间化效果: 提供更自然流畅的运动感知
情感表达: 生成与剧本内容相符的情感

搜集汇总

数据集介绍

构建方式

MRSDrama数据集的构建采用了多模态记录方法，涵盖了双耳戏剧音频、剧本、视频、几何姿态和文本提示等多种数据类型。数据收集过程包括专业双耳录音设备的使用，确保音频质量；视频同步录制以捕捉演员的表演细节；以及详细的标注流程，包括音频去噪、音素对齐和视频姿态标注。此外，数据集还通过GPT-4o生成文本提示，进一步丰富了数据的多样性和应用范围。

特点

MRSDrama数据集以其多模态性和高质量标注著称，包含97.82小时的语音数据，由21位演员在三种不同场景下录制。数据集不仅提供了丰富的双耳音频数据，还包含了详细的视频和姿态信息，使其成为支持空间音频生成和戏剧性韵律建模的理想资源。此外，数据集的多样性和规模使其在语音合成、音频空间化等领域具有广泛的应用潜力。

使用方法

MRSDrama数据集的使用方法包括多模态输入的整合和处理。用户可以通过剧本、提示音频和多模态提示（如视频、文本或几何姿态）生成连续的多说话者双耳语音。数据集特别适用于训练和评估空间音频生成模型，如ISDrama，通过其丰富的多模态数据支持高质量的语音合成和空间音频建模。具体使用步骤包括数据预处理、模型训练和生成结果的评估。

背景与挑战

背景概述

MRSDrama是由浙江大学的研究团队于2025年提出的首个多模态记录空间戏剧数据集，旨在支持沉浸式空间戏剧生成任务。该数据集包含双耳戏剧音频、剧本、视频、几何姿态和文本提示等多种模态数据，总时长达到97.82小时，由21位演员在三个不同场景中录制完成。MRSDrama的创建填补了多模态空间戏剧数据领域的空白，为增强现实（AR）、虚拟现实（VR）等应用场景中的沉浸式音频生成提供了重要支持。其核心研究问题在于如何基于多模态提示生成具有戏剧性韵律的连续多说话者双耳语音，同时建模空间信息和韵律特征。

当前挑战

MRSDrama面临的挑战主要包括三个方面：1) 高质量标注数据的缺乏。现有模拟数据难以捕捉真实的戏剧性韵律和空间场景的精确效果，且现有双耳音频数据集在规模、戏剧性韵律和多模态提示方面存在局限。2) 从多模态提示中提取统一姿态表征的困难。无声视频、几何姿态和文本提示提供了多样场景下的空间信息，但现有方法难以从更广泛的场景中学习统一的姿态表征。3) 单阶段建模戏剧性韵律和空间沉浸的难度。现有单声道语音模型难以同时建模需要在时频域进行语义对齐的戏剧性韵律和跨越时空维度的空间信息。

常用场景

经典使用场景

MRSDrama数据集在沉浸式空间戏剧生成领域具有广泛的应用场景。该数据集通过多模态提示（包括双耳戏剧音频、剧本、视频、几何姿态和文本提示）为研究者提供了丰富的素材，用于生成具有戏剧性韵律的连续多说话者双耳语音。这一数据集特别适用于虚拟现实（VR）和增强现实（AR）应用，能够为用户提供高度沉浸式的听觉体验。

衍生相关工作

MRSDrama数据集衍生了一系列经典研究工作，特别是在多模态音频生成和语音合成领域。基于该数据集，研究者提出了ISDrama模型，首次实现了通过多模态提示生成沉浸式空间戏剧。此外，该数据集还启发了多项关于双耳音频合成、戏剧性韵律建模和空间音频处理的研究，为相关领域的技术进步提供了重要支持。

数据集最近研究