MRSDrama

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/AaronZ345/MRSDrama

下载链接

链接失效反馈

官方服务：

资源简介：

ISDrama是一个沉浸式空间戏剧生成的多模态提示数据集，包含双耳戏剧音频、剧本、视频、几何姿态和文本提示。该数据集旨在支持空间音频和戏剧相关的任务，提供了完整的语料免费使用。

创建时间：

2025-07-15

原始信息汇总

MRSDrama数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
任务类别: 文本到语音（text-to-speech）
语言: 中文（zh）
标签: 空间音频（spatial-audio）、戏剧（drama）、双耳音频（binaural）
规模: 小于1K（n<1K）

数据集描述

名称: ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
开发者: Yu Zhang*, Wenxiang Guo*, Changhao Pan*, Zhiyuan Zhu*, Tao Jin, Zhou Zhao | 浙江大学
论文链接: https://arxiv.org/abs/2504.20630
GitHub仓库: https://github.com/AaronZ345/ISDrama
Demo页面: https://aaronz345.github.io/ISDramaDemo

数据集内容

类型: 多模态录制空间戏剧数据集
包含数据:
- 双耳戏剧音频
- 剧本
- 视频
- 几何姿势
- 文本提示

更新日志

2025.07: 发布MRSDrama的评估代码
2025.07: 发布MRSDrama的完整数据集
2025.07: ISDrama被ACMMM 2025接受

使用条款

使用MRSDrama数据集即表示您已接受许可证的条款。

搜集汇总

数据集介绍

构建方式

在沉浸式空间音频技术快速发展的背景下，MRSDrama数据集通过多模态采集技术构建而成。研究团队采用专业录音设备收录双耳戏剧音频，同步采集演员表演视频、几何姿态数据及剧本文本，形成完整的空间戏剧多模态语料库。数据集构建过程严格遵循空间音频采集规范，确保双耳音频的方位感和距离感准确呈现，所有素材均经过专业标注和时空对齐处理。

特点

作为首个多模态录制的空间戏剧数据集，MRSDrama包含双耳戏剧音频、剧本文本、表演视频、几何姿态和文本提示五种模态数据。其独特价值在于完整记录了戏剧表演的空间听觉特征，双耳音频能精准还原声源方位变化，视频与姿态数据则为空间音频生成提供视觉参照。数据集涵盖丰富的话剧表演场景，不同情感基调的对话交互构成具有韵律多样性的语音库。

使用方法

该数据集适用于空间音频生成、多模态戏剧分析等研究领域。使用者可通过HuggingFace平台获取完整语料，配合官方提供的评估代码验证模型性能。数据集中的文本提示可与音频视频数据联合使用，训练多模态空间音频生成模型。为保障研究合规性，使用前需仔细阅读并同意知识共享许可协议条款，所有衍生研究需遵循相同许可协议进行分享。

背景与挑战

背景概述

MRSDrama数据集由浙江大学的研究团队于2025年推出，作为首个多模态空间戏剧数据集，标志着沉浸式音频生成领域的重要突破。该数据集由Yu Zhang、Wenxiang Guo等学者主导构建，收录了包含双耳戏剧音频、剧本、视频、几何姿态及文本提示在内的多维度数据，旨在推动基于多模态提示的空间戏剧生成研究。作为ACMMM 2025会议的核心成果之一，MRSDrama为戏剧艺术与人工智能的交叉研究提供了标准化基准，尤其对空间音频合成、跨模态对齐等方向具有启发意义。

当前挑战

MRSDrama需解决的核心领域挑战在于如何实现文本、音频与空间信息的精准对齐，这对沉浸式戏剧体验的逼真度至关重要。数据构建过程中，研究团队面临多模态数据同步采集的技术难题，包括双耳录音的空间一致性校准、演员姿态与音频的时序匹配等。此外，剧本文本到空间音频的跨模态转换缺乏现有标注规范，需设计全新的标注框架以支持生成模型的训练。这些挑战使得该数据集在保证数据质量与多样性的同时，需平衡采集成本与标注复杂度。

常用场景

经典使用场景

在沉浸式音频与戏剧艺术交叉领域，MRSDrama数据集为研究者提供了多模态空间音频生成的基准测试平台。其双耳戏剧音频与脚本、视频、几何姿态数据的多模态对齐特性，使得该数据集特别适用于探索文本到空间音频合成的端到端模型训练。通过剧本文本与空间化声音的映射关系研究，能够复现戏剧表演中声音方位感知的物理规律。

解决学术问题

该数据集有效解决了传统戏剧数字化研究中空间音频数据匮乏的核心问题。通过提供精确标注的声源方位、演员运动轨迹与台词文本，为跨模态表征学习、声场重建算法验证、以及沉浸式戏剧生成模型的客观评估建立了标准化框架。其多模态特性尤其有助于突破音频-文本-视觉联合建模中的语义对齐瓶颈。

衍生相关工作

基于该数据集的空间音频生成范式已催生多项创新研究，包括浙江大学团队提出的ISDrama多模态提示框架。后续工作扩展至跨语言戏剧生成、实时声像追踪算法优化等领域，相关成果见于ACMMM等顶级会议。数据集特有的几何姿态标注更推动了戏剧动作-语音协同生成这一新兴方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集