MRSDrama
收藏arXiv2025-04-29 更新2025-05-01 收录
下载链接:
https://aaronz345.github.io/ISDramaDemo
下载链接
链接失效反馈官方服务:
资源简介:
MRSDrama数据集是首个多模态记录的空间戏剧数据集,包含双耳戏剧音频、剧本、视频、几何姿态和文本提示。数据集包含由21位演讲者在三个场景中录制的97.82小时的语音数据,旨在解决多模态沉浸式空间戏剧生成任务中的数据收集成本高、统一姿态表示提取困难、戏剧韵律和空间沉浸式建模难度大等挑战。该数据集适合各种任务,如双耳定位和戏剧生成,并通过多模态提示生成高质量、连续、多说话人双耳语音,具有戏剧韵律和空间沉浸感。
The MRSDrama dataset is the first multimodally recorded spatial theater dataset, which contains binaural theater audio, scripts, videos, geometric poses, and text prompts. It encompasses 97.82 hours of speech data recorded by 21 speakers across three scenarios, aiming to address the core challenges in multimodal immersive spatial theater generation tasks, including high data collection costs, difficulties in extracting unified pose representations, and challenges in modeling theatrical prosody and spatial immersion. This dataset is suitable for various tasks such as binaural localization and theater generation, and can generate high-quality, continuous, multi-speaker binaural speech with theatrical prosody and spatial immersion via multimodal prompts.
提供机构:
浙江工业大学
创建时间:
2025-04-29
原始信息汇总
ISDrama数据集概述
数据集基本信息
- 名称: ISDrama (Immersive Spatial Drama Generation through Multimodal Prompting)
- 类型: 多模态空间戏剧生成数据集
- 数据量: 97.82小时语音数据
- 录制者: 21位说话人
- 场景数量: 3个
数据内容
- 包含数据类型:
- 双耳戏剧音频
- 剧本文本
- 视频
- 几何姿势数据
- 文本提示
模型概述
- 模型名称: ISDrama
- 主要组件:
- 多模态姿势编码器(Multimodal Pose Encoder)
- 沉浸式戏剧变换器(Immersive Drama Transformer)
- 关键特征:
- 基于对比学习的框架
- 考虑移动说话人引起的多普勒效应
- 流式Mamba-Transformer架构
- 包含Drama-MOE(专家混合)模块
- 采用上下文一致的无分类器指导策略
演示案例
1. 无声视频生成结果
- 案例1: Henry IV
- 案例2: Waiting for Godot
- 案例3: Troilus and Cressida
2. 几何姿势生成结果
- 案例1: Self-accusation
- 案例2: Measure for Measure
- 案例3: Persian
- 案例4: Waiting for Godot
3. 文本提示生成结果
- 案例1: Offending the Audience
- 案例2: Hiroshima Mon Amour
- 案例3: Waiting for Godot
评估指标
- 音频质量: 成功学习音色和韵律
- 空间化效果: 提供更自然流畅的运动感知
- 情感表达: 生成与剧本内容相符的情感
搜集汇总
数据集介绍

构建方式
MRSDrama数据集的构建采用了多模态记录方法,涵盖了双耳戏剧音频、剧本、视频、几何姿态和文本提示等多种数据类型。数据收集过程包括专业双耳录音设备的使用,确保音频质量;视频同步录制以捕捉演员的表演细节;以及详细的标注流程,包括音频去噪、音素对齐和视频姿态标注。此外,数据集还通过GPT-4o生成文本提示,进一步丰富了数据的多样性和应用范围。
特点
MRSDrama数据集以其多模态性和高质量标注著称,包含97.82小时的语音数据,由21位演员在三种不同场景下录制。数据集不仅提供了丰富的双耳音频数据,还包含了详细的视频和姿态信息,使其成为支持空间音频生成和戏剧性韵律建模的理想资源。此外,数据集的多样性和规模使其在语音合成、音频空间化等领域具有广泛的应用潜力。
使用方法
MRSDrama数据集的使用方法包括多模态输入的整合和处理。用户可以通过剧本、提示音频和多模态提示(如视频、文本或几何姿态)生成连续的多说话者双耳语音。数据集特别适用于训练和评估空间音频生成模型,如ISDrama,通过其丰富的多模态数据支持高质量的语音合成和空间音频建模。具体使用步骤包括数据预处理、模型训练和生成结果的评估。
背景与挑战
背景概述
MRSDrama是由浙江大学的研究团队于2025年提出的首个多模态记录空间戏剧数据集,旨在支持沉浸式空间戏剧生成任务。该数据集包含双耳戏剧音频、剧本、视频、几何姿态和文本提示等多种模态数据,总时长达到97.82小时,由21位演员在三个不同场景中录制完成。MRSDrama的创建填补了多模态空间戏剧数据领域的空白,为增强现实(AR)、虚拟现实(VR)等应用场景中的沉浸式音频生成提供了重要支持。其核心研究问题在于如何基于多模态提示生成具有戏剧性韵律的连续多说话者双耳语音,同时建模空间信息和韵律特征。
当前挑战
MRSDrama面临的挑战主要包括三个方面:1) 高质量标注数据的缺乏。现有模拟数据难以捕捉真实的戏剧性韵律和空间场景的精确效果,且现有双耳音频数据集在规模、戏剧性韵律和多模态提示方面存在局限。2) 从多模态提示中提取统一姿态表征的困难。无声视频、几何姿态和文本提示提供了多样场景下的空间信息,但现有方法难以从更广泛的场景中学习统一的姿态表征。3) 单阶段建模戏剧性韵律和空间沉浸的难度。现有单声道语音模型难以同时建模需要在时频域进行语义对齐的戏剧性韵律和跨越时空维度的空间信息。
常用场景
经典使用场景
MRSDrama数据集在沉浸式空间戏剧生成领域具有广泛的应用场景。该数据集通过多模态提示(包括双耳戏剧音频、剧本、视频、几何姿态和文本提示)为研究者提供了丰富的素材,用于生成具有戏剧性韵律的连续多说话者双耳语音。这一数据集特别适用于虚拟现实(VR)和增强现实(AR)应用,能够为用户提供高度沉浸式的听觉体验。
衍生相关工作
MRSDrama数据集衍生了一系列经典研究工作,特别是在多模态音频生成和语音合成领域。基于该数据集,研究者提出了ISDrama模型,首次实现了通过多模态提示生成沉浸式空间戏剧。此外,该数据集还启发了多项关于双耳音频合成、戏剧性韵律建模和空间音频处理的研究,为相关领域的技术进步提供了重要支持。
数据集最近研究
最新研究方向
近年来,MRSDrama数据集在沉浸式空间戏剧生成领域引起了广泛关注。该数据集通过多模态提示(包括双耳戏剧音频、剧本、视频、几何姿态和文本提示)为生成连续多说话者双耳语音提供了丰富的基础。研究重点集中在如何通过统一的多模态框架同时建模空间信息和戏剧性韵律,以克服传统级联方法导致的误差累积问题。前沿研究方向包括开发基于对比学习的多模态姿态编码器,以提取统一的空间表示,以及设计流式Mamba-Transformer模型来增强韵律表达和姿态控制。这些研究不仅推动了AR/VR应用中沉浸式叙事的发展,还为跨模态生成任务提供了新的技术路径。
相关研究论文
- 1ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting浙江工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成



