five

MRSDrama

收藏
github2025-07-19 更新2025-07-20 收录
下载链接:
https://github.com/AaronZ345/ISDrama
下载链接
链接失效反馈
官方服务:
资源简介:
我们构建了MRSDrama,这是第一个多模态记录的空间戏剧数据集,包含双耳戏剧音频、剧本、视频、几何姿势和文本提示。

We constructed MRSDrama, which is the first multimodal spatial drama dataset, encompassing binaural drama audio, scripts, videos, geometric postures, and textual prompts.
创建时间:
2025-07-18
原始信息汇总

ISDrama数据集概述

基本信息

数据集内容

  • 数据类型:
    • 双耳戏剧音频
    • 剧本文本
    • 视频文件
    • 几何姿态数据
    • 文本提示
  • 数据组织:
    • 分层结构组织
    • 每个顶级文件夹包含一组戏剧
    • 每个子文件夹包含:
      • 切割的WAV文件
      • MP4视频文件
      • 包含所有注释信息的JSON文件

关键特性

  • 首个多模态记录的空间戏剧数据集
  • 包含视频、剧本、对齐、位置和文本提示
  • 为沉浸式空间戏剧生成研究提供支持

获取方式

评估方法

  • 依赖环境: 使用conda创建isdrama_eva环境
  • 评估准备:
  • 评估指标:
    • 语义和声学指标:
      • 字符错误率(CER)
      • 余弦相似度(SIM)
      • F0帧错误(FFE)
    • 空间指标:
      • IPD MAE
      • ILD MAE
      • 角度余弦相似度(ANG Cos)
      • 距离余弦相似度(Dis Cos)

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
MRSDrama作为首个多模态记录的空间戏剧数据集,其构建过程体现了跨模态数据融合的前沿理念。研究团队通过系统化采集双耳戏剧音频、剧本文本、视频素材、几何姿态数据及文本提示,构建了多层次关联的数据架构。每个戏剧单元以文件夹形式组织,包含切割后的WAV音频文件、MP4视频文件以及集成所有标注信息的JSON文件,这种层级化存储方式确保了多模态数据的完整性与可追溯性。
使用方法
研究者可通过Hugging Face平台获取数据集完整资源,使用前需确认接受许可协议条款。评估流程需配置专用conda环境并下载预训练检查点,严格遵循音频文件配对规范。评估脚本自动执行三阶段分析:首先提取空间角度与距离嵌入向量,继而计算双声道音频的空间声学特征,最终通过MAE和余弦相似度等指标量化生成效果。数据集支持从语义准确性、音色相似度到空间参数还原度等多维度评测。
背景与挑战
背景概述
MRSDrama数据集由浙江大学的研究团队于2025年构建,是首个多模态记录的空间戏剧数据集,涵盖了双耳戏剧音频、剧本、视频、几何姿态以及文本提示。该数据集的创建旨在推动沉浸式空间戏剧生成领域的研究,通过多模态提示技术实现戏剧内容的自动化生成。MRSDrama的发布为相关领域的研究者提供了丰富的多模态数据资源,显著提升了沉浸式戏剧生成模型的训练与评估能力,对多媒体内容生成和虚拟现实应用具有重要的推动作用。
当前挑战
MRSDrama数据集在构建过程中面临多重挑战。首先,多模态数据的同步采集与对齐需要高精度的技术手段,以确保音频、视频和姿态数据的时间一致性。其次,双耳音频的空间感重建对录音环境和后期处理提出了极高要求,需精确捕捉声源的方向和距离信息。此外,数据标注的复杂性也是一个关键挑战,剧本与音频的对齐以及姿态数据的标注需要大量人工参与。在模型训练阶段,如何有效融合多模态输入并生成高质量的沉浸式戏剧内容,仍是当前研究的难点。
常用场景
经典使用场景
在虚拟现实与增强现实领域,MRSDrama数据集为研究者提供了丰富的多模态戏剧素材,包括双耳音频、剧本、视频、几何姿态及文本提示。这一数据集特别适用于开发沉浸式戏剧生成系统,通过多模态提示技术模拟真实剧场体验。研究者可利用其多维数据训练模型,实现从文本到空间音频的端到端生成,为数字娱乐产业带来革新。
解决学术问题
MRSDrama有效解决了传统戏剧生成研究中多模态对齐的难题。其提供的几何姿态与音频空间化标注,填补了戏剧表演中动作-声音联合建模的数据空白。通过该数据集,研究者可深入探究语音情感与空间位置的动态关联,突破现有语音合成模型在空间感知维度上的局限,推动人机交互中的情感计算研究进入三维空间时代。
实际应用
该数据集在智能剧场系统开发中展现出重要价值。基于MRSDrama训练的模型可自动生成具有空间方位感的戏剧对白,应用于虚拟演员系统、无障碍剧场导览等场景。教育领域可利用其构建沉浸式戏剧教学平台,而游戏产业则能借此实现动态叙事中的空间化语音交互,显著提升用户体验的真实感与代入感。
数据集最近研究
最新研究方向
随着沉浸式媒体技术的快速发展,MRSDrama数据集为空间音频与多模态生成领域开辟了新的研究方向。该数据集作为首个多模态记录的空间戏剧数据集,整合了双耳戏剧音频、剧本、视频、几何姿态和文本提示,为探索沉浸式空间戏剧生成提供了丰富的研究素材。当前研究热点集中在多模态提示驱动的空间音频生成,特别是通过几何姿态编码和沉浸式戏剧转换器实现双耳语音合成。这一方向不仅推动了戏剧内容生成的智能化进程,也为虚拟现实、增强现实等应用场景中的空间音频技术提供了新的解决方案。相关模型在客观指标和主观听感上均展现出优越性能,标志着多模态空间内容生成技术的重要突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作