MRSDrama

github2025-07-19 更新2025-07-20 收录

下载链接：

https://github.com/AaronZ345/ISDrama

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了MRSDrama，这是第一个多模态记录的空间戏剧数据集，包含双耳戏剧音频、剧本、视频、几何姿势和文本提示。

We constructed MRSDrama, which is the first multimodal spatial drama dataset, encompassing binaural drama audio, scripts, videos, geometric postures, and textual prompts.

创建时间：

2025-07-18

原始信息汇总

ISDrama数据集概述

基本信息

数据集名称: MRSDrama (Multimodal Recorded Spatial Drama Dataset)
相关论文: ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
发布状态: 已发布完整数据集和评估代码
发布日期: 2025年7月
许可协议: dataset_license.md

数据集内容

数据类型:
- 双耳戏剧音频
- 剧本文本
- 视频文件
- 几何姿态数据
- 文本提示
数据组织:
- 分层结构组织
- 每个顶级文件夹包含一组戏剧
- 每个子文件夹包含:
  - 切割的WAV文件
  - MP4视频文件
  - 包含所有注释信息的JSON文件

关键特性

首个多模态记录的空间戏剧数据集
包含视频、剧本、对齐、位置和文本提示
为沉浸式空间戏剧生成研究提供支持

获取方式

下载地址: Hugging Face数据集页面
访问限制: 免费获取，需接受许可协议条款

评估方法

依赖环境: 使用conda创建isdrama_eva环境
评估准备:
- 需要下载BAT编码器检查点
- 准备配对的真实音频和生成音频
评估指标:
- 语义和声学指标:
  - 字符错误率(CER)
  - 余弦相似度(SIM)
  - F0帧错误(FFE)
- 空间指标:
  - IPD MAE
  - ILD MAE
  - 角度余弦相似度(ANG Cos)
  - 距离余弦相似度(Dis Cos)

相关资源

演示页面: ISDramaDemo
GitHub仓库: ISDrama

搜集汇总

数据集介绍

构建方式

MRSDrama作为首个多模态记录的空间戏剧数据集，其构建过程体现了跨模态数据融合的前沿理念。研究团队通过系统化采集双耳戏剧音频、剧本文本、视频素材、几何姿态数据及文本提示，构建了多层次关联的数据架构。每个戏剧单元以文件夹形式组织，包含切割后的WAV音频文件、MP4视频文件以及集成所有标注信息的JSON文件，这种层级化存储方式确保了多模态数据的完整性与可追溯性。

使用方法

研究者可通过Hugging Face平台获取数据集完整资源，使用前需确认接受许可协议条款。评估流程需配置专用conda环境并下载预训练检查点，严格遵循音频文件配对规范。评估脚本自动执行三阶段分析：首先提取空间角度与距离嵌入向量，继而计算双声道音频的空间声学特征，最终通过MAE和余弦相似度等指标量化生成效果。数据集支持从语义准确性、音色相似度到空间参数还原度等多维度评测。

背景与挑战

背景概述

MRSDrama数据集由浙江大学的研究团队于2025年构建，是首个多模态记录的空间戏剧数据集，涵盖了双耳戏剧音频、剧本、视频、几何姿态以及文本提示。该数据集的创建旨在推动沉浸式空间戏剧生成领域的研究，通过多模态提示技术实现戏剧内容的自动化生成。MRSDrama的发布为相关领域的研究者提供了丰富的多模态数据资源，显著提升了沉浸式戏剧生成模型的训练与评估能力，对多媒体内容生成和虚拟现实应用具有重要的推动作用。

当前挑战

MRSDrama数据集在构建过程中面临多重挑战。首先，多模态数据的同步采集与对齐需要高精度的技术手段，以确保音频、视频和姿态数据的时间一致性。其次，双耳音频的空间感重建对录音环境和后期处理提出了极高要求，需精确捕捉声源的方向和距离信息。此外，数据标注的复杂性也是一个关键挑战，剧本与音频的对齐以及姿态数据的标注需要大量人工参与。在模型训练阶段，如何有效融合多模态输入并生成高质量的沉浸式戏剧内容，仍是当前研究的难点。

常用场景

经典使用场景

在虚拟现实与增强现实领域，MRSDrama数据集为研究者提供了丰富的多模态戏剧素材，包括双耳音频、剧本、视频、几何姿态及文本提示。这一数据集特别适用于开发沉浸式戏剧生成系统，通过多模态提示技术模拟真实剧场体验。研究者可利用其多维数据训练模型，实现从文本到空间音频的端到端生成，为数字娱乐产业带来革新。

解决学术问题

MRSDrama有效解决了传统戏剧生成研究中多模态对齐的难题。其提供的几何姿态与音频空间化标注，填补了戏剧表演中动作-声音联合建模的数据空白。通过该数据集，研究者可深入探究语音情感与空间位置的动态关联，突破现有语音合成模型在空间感知维度上的局限，推动人机交互中的情感计算研究进入三维空间时代。

实际应用

该数据集在智能剧场系统开发中展现出重要价值。基于MRSDrama训练的模型可自动生成具有空间方位感的戏剧对白，应用于虚拟演员系统、无障碍剧场导览等场景。教育领域可利用其构建沉浸式戏剧教学平台，而游戏产业则能借此实现动态叙事中的空间化语音交互，显著提升用户体验的真实感与代入感。

数据集最近研究