MoChaBench

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/CongWei1230/MoChaBench

下载链接

链接失效反馈

官方服务：

资源简介：

MoChaBench是一个针对对话驱动的电影镜头生成的评估基准，包含220个提示和相应的音频源，用于评估关键方面如对话类型、摄像机角度、摄像机移动、情感、动作和场景。该数据集分为三个版本，以支持不同的使用场景和评估需求。

创建时间：

2025-05-06

原始信息汇总

MoChaBench 数据集概述

基本信息

许可证: Apache-2.0
语言: 英语 (en)
标签: diffusion, video, video gen, mocha, talking, talking head, movie, audio, text
数据集大小: 519.78 MB
下载大小: 299.65 MB
样本数量: 220
数据格式: 图像、音频、文本

数据集特征

类别 (category): 字符串
提示 (prompt): 字符串
首帧图像 (first-frame-from-mocha-generation): 图像
音频 (audio): 音频
语音 (speech): 音频

数据集内容

MoChaBench 是一个专为对话驱动的电影镜头生成设计的评估基准，包含 220 个提示和对应的音频源，涵盖以下关键方面：

对话类型: 单角色独白、多角色对话、轮流对话
镜头角度: 特写镜头、中景镜头等
镜头运动: 跟踪、手持等
情感: 快乐、悲伤、沮丧等
动作: 伴随语音的手势、身体活动等
场景: 室内和室外场景

类别细分

1p_closeup_facingcamera: 单角色直接对镜头说话
1p_camera_movement: 单角色说话伴随镜头运动
1p_emotion: 单角色表达不同情感
1p_mediumshot_actioncontrol: 单角色说话伴随不同动作
2p_1clip_1talk: 同一镜头中多角色，仅一人说话
2p_2clip_2talk: 交替镜头中多角色轮流说话
1p_generalize_chinese: 单角色说中文（跨语言泛化测试）
1p_portrait: 单角色竖屏说话（移动视频常见）

引用

bibtex @article{wei2025mocha, title={MoCha: Towards Movie-Grade Talking Character Synthesis}, author={Wei, Cong and Sun, Bo and Ma, Haoyu and Hou, Ji and Juefei-Xu, Felix and He, Zecheng and Dai, Xiaoliang and Zhang, Luxin and Li, Kunpeng and Hou, Tingbo and others}, journal={arXiv preprint arXiv:2503.23307}, year={2025} }

搜集汇总

数据集介绍

构建方式

在对话驱动电影镜头生成这一前沿领域中，MoChaBench数据集的构建采用了系统化设计理念。该数据集基于220组精心设计的对话场景，通过整合文本提示、原始音频及经Demucs算法处理的降噪语音，构建出多模态输入样本。为促进公平比较，额外提供了由MoCha模型生成的首帧图像，形成完整的图像-文本-音频到视频的评估链条。数据采集覆盖单人多角色对话、镜头运动、情感表达等维度，采用标准化流程确保数据质量与一致性。

特点

该数据集的核心特征体现在其多维度的场景分类体系。通过8个精细定义的类别标签，系统涵盖单人多镜头交互、双人交替对话、跨语言泛化等复杂场景。每个样本均包含文本提示、双版本音频及首帧图像的四元组结构，形成层次化的特征表达。特别设计的肖像模式与中文泛化场景，突破了传统电影生成数据集的边界，为多模态对话生成研究提供了立体化的评估基准。

使用方法

针对电影级角色合成的研究需求，该数据集支持端到端的多模态生成任务。研究者可通过加载标准化的parquet格式数据，分别提取文本提示、降噪语音和首帧图像作为生成模型的输入条件。评估流程需遵循官方提供的标准化指标，重点关注对话连贯性、镜头运动自然度等维度。对于跨模态对齐研究，可借助数据集中的音视频同步特征进行时序分析，相关代码实现已开源在项目仓库中。

背景与挑战

背景概述

MoChaBench作为对话驱动电影镜头生成领域的评估基准，由Cong Wei等研究人员于2025年提出，其核心研究问题聚焦于如何通过语音与文本的融合输入生成具有电影质感的动态镜头。该数据集通过涵盖单人多角色对话、摄像机运动、情感表达等六维特征，有效填补了传统叙事型视频生成基准在对话场景建模方面的空白，为电影工业智能化制作与多模态内容生成领域提供了重要的技术支撑。

当前挑战

在领域问题层面，该数据集需解决对话场景中语音韵律与人物微表情的时序对齐、多镜头语言的风格一致性保持等核心难题；构建过程中则面临跨语言泛化样本采集、专业电影镜头标注体系建立，以及原始音频信号与降噪语音的多模态数据协同处理等技术挑战。

常用场景

衍生相关工作

基于MoChaBench的基准特性，研究社区已衍生出多个重要研究方向。MoCha模型作为该数据集的配套工作，开创了电影级对话角色生成的新范式。后续研究围绕多模态特征对齐、跨语言泛化能力提升等方向展开，推动了端到端视频生成架构的演进。同时，该数据集也促进了与其他视频生成基准的对比研究，为建立更全面的视频生成评估体系奠定了基础。

数据集最近研究