CelebV-Dub
收藏arXiv2025-04-03 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.02386v1
下载链接
链接失效反馈官方服务:
资源简介:
CelebV-Dub是一个专为自动视频配音任务设计的新数据集,由现有的视频源构建而成,包含来自博客、戏剧和电影的情感丰富的场景。该数据集经过精心筛选,以确保适用于自动视频配音。与LRS3数据集相比,CelebV-Dub包含了更广泛的野外视频,具有表达性的言语。该数据集旨在用于评估语音合成在自然度和唇同步准确性方面的质量,适用于电影制作、多媒体创作以及帮助语音障碍人士等领域。
CelebV-Dub is a novel dataset specifically tailored for automatic video dubbing tasks, constructed from existing video sources and encompassing emotionally rich scenes from vlogs, dramas, and films. The dataset has been meticulously screened to ensure its suitability for automatic video dubbing applications. Compared with the LRS3 dataset, CelebV-Dub includes a wider range of in-the-wild videos featuring expressive speech. This dataset is designed to evaluate the quality of speech synthesis in terms of naturalness and lip-sync accuracy, and can be applied in fields such as film production, multimedia creation, and assisting people with speech impairments.
提供机构:
POSTECH, KAIST, The University of Texas at Austin
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
CelebV-Dub数据集的构建依托于CelebV-HQ和CelebV-Text等现有视频资源,通过精心设计的数据筛选流程,确保视频内容适合自动视频配音任务。首先,利用WhisperX进行语言检测和伪转录生成,仅保留英语语音视频。随后,根据时间戳将视频剪辑为单个话语片段,并通过Mediapipe进行正面人脸验证,剔除侧脸或头部运动剧烈的片段。进一步应用TalkNet进行主动说话者检测,确保面部动作与语音同步。最后,通过Spleeter抑制背景音乐,并基于说话者识别模型对片段进行聚类,形成具有丰富情感表达的多说话者视频数据集。
特点
CelebV-Dub数据集以其多样化的真实场景视频著称,涵盖vlog、戏剧和电影等多种来源,包含情感丰富的表达性语音。与LRS3等传统数据集相比,CelebV-Dub更注重捕捉自然情境下的情感变化和语音韵律,为自动视频配音任务提供了更具挑战性的基准。数据集包含6,563名说话者的67,765个视频片段,平均时长4.57秒,每个说话者平均贡献10.33个话语,充分保证了数据的多样性和覆盖范围。其独特的表达性内容使其成为训练和评估语音合成模型在真实场景下表现的重要资源。
使用方法
该数据集专为自动视频配音任务设计,研究人员可将CelebV-Dub与源语音、目标文本和目标视频结合使用,构建{源语音, 目标文本, 目标视频}三元组作为模型输入。在推理阶段,建议采用类似VALL-E 2的排序策略,基于内容准确度(WER)和唇同步精度(LSE-D)从多个合成样本中选择最优结果。数据集特别适用于评估模型在表达性语音合成、唇部同步和情感传递等方面的性能,可通过主观评价(如MOS评分)和客观指标(如WER、LSE-D/C)进行全面评估。
背景与挑战
背景概述
CelebV-Dub数据集由KAIST和POSTECH等机构的研究团队于2025年推出,旨在支持自动化视频配音任务的研究。该数据集基于CelebV-HQ和CelebV-Text等现有视频资源构建,包含从视频博客、电视剧和电影中收集的丰富情感表达场景。其主要研究问题是如何通过结合文本和面部视觉线索,生成高质量、自然且与视频中唇部动作精确同步的语音。CelebV-Dub的推出填补了现有数据集在情感丰富和真实场景语音合成方面的空白,为电影制作、多媒体内容创作以及辅助语音障碍人士等领域提供了重要支持。
当前挑战
CelebV-Dub数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,自动化视频配音需要解决语音合成的自然性、可懂度、说话人相似性,以及与唇部动作的精确同步和情感表达的一致性。这些要求使得该任务比传统文本到语音合成更为复杂。在构建过程中,研究团队需要从大量原始视频中筛选出适合配音任务的内容,包括检测有效说话人、抑制背景音乐、验证正面人脸以及聚类说话人身份等步骤。此外,数据集中情感表达的多样性和真实场景的复杂性也增加了数据标注和模型训练的难度。
常用场景
经典使用场景
CelebV-Dub数据集在自动化视频配音研究中扮演了核心角色,其经典使用场景包括基于神经编解码语言模型(NCLMs)的跨模态语音合成。该数据集通过提供包含丰富情感表达的真人视频片段,支持研究者训练模型生成与唇部运动精确同步、同时保留自然韵律的合成语音。典型流程涉及将源语音、目标文本与目标视频作为输入,通过音频-视觉融合机制生成时间对齐的语音输出,这在电影重配音、多语言视频内容生成等场景中具有重要价值。
解决学术问题
CelebV-Dub有效解决了视听跨模态对齐的关键学术问题。传统文本转语音(TTS)系统难以捕捉视频中的时序唇动特征和情感表达,而该数据集通过提供高质量的音视频对齐样本,使模型能同时优化五项指标:语音清晰度、自然度、说话人相似性、唇部同步精度和情感表达准确性。其构建方法突破了LRS3等现有数据集在情感多样性方面的局限,为建立音视频联合表征学习范式提供了实验基础,推动了语音合成领域从单一模态向多模态协同生成的范式转变。
衍生相关工作
该数据集催生了多个标志性研究工作:HPMDubbing通过多层次视觉线索对齐框架改进了语音韵律生成;StyleDubber开发了多尺度风格学习架构以提升发音准确性;而Zhang等人提出的两阶段方法率先实现了语音时长与唇动的动态一致性建模。这些工作共同推动了从传统TTS向视觉引导的语音合成范式演进,其中VoiceCraft-Dub通过神经编解码模型的语境学习能力,在音视频融合深度和生成自然度方面树立了新的技术标杆。
以上内容由遇见数据集搜集并总结生成



