TalkCuts

Name: TalkCuts
Creator: UMass Amherst, Tencent AI, Fudan University, Sony AI, UC San Diego
Published: 2025-10-09 01:16:09
License: 暂无描述

arXiv2025-10-09 更新2025-11-19 收录

下载链接：

https://talkcuts.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TalkCuts 是一个大规模数据集，旨在促进多镜头人类语音视频生成的研究。它提供了超过 500 小时的高质量人类语音视频，包括多种摄像机镜头，如特写、半身和全身视图。数据集包括详细的文本描述、2D 关键点和 3D SMPL-X 运动注释，涵盖超过 10,000 个身份，支持多模态学习和评估。TalkCuts 为可控的多镜头语音视频生成和多模态学习提供了坚实的基础。

TalkCuts is a large-scale dataset designed to advance research on multi-shot human speech video generation. It offers over 500 hours of high-quality human speech videos featuring diverse camera shot types, such as close-ups, half-body shots, and full-body shots. The dataset provides detailed textual descriptions, 2D keypoints, and 3D SMPL-X motion annotations, spanning more than 10,000 unique identities, and supports multimodal learning and evaluation. TalkCuts establishes a robust foundation for controllable multi-shot speech video generation and multimodal learning.

提供机构：

UMass Amherst, Tencent AI, Fudan University, Sony AI, UC San Diego

创建时间：

2025-10-09

搜集汇总

数据集介绍

构建方式

在多媒体内容生成领域，多镜头人像语音视频的构建一直面临数据稀缺的挑战。TalkCuts数据集通过系统化的数据采集流程，从公开演讲平台获取高质量视频素材，运用PySceneDetect进行场景分割，并采用RTMDet进行人物检测筛选。通过DWPose姿态估计算法获取133个全身关键点，结合SMPLer-X与HaMeR、EMOCA等技术融合优化三维运动参数，最终形成包含16.4万视频片段、57M帧画面的多模态数据集。

特点

该数据集在多媒体生成领域展现出显著优势，其核心特征体现在三个方面：镜头视角的多样性覆盖了从特写到全景的六种标准镜头类型，身份多样性囊括了超过一万个不同种族、体型和年龄的说话者，标注体系的完整性则同步提供了文本描述、二维关键点与三维SMPL-X运动参数。这种多维度的数据组织方式为可控视频生成任务提供了丰富的监督信号，特别适合需要保持身份一致性的跨镜头生成场景。

使用方法

在具体应用层面，该数据集支持多种生成任务的模型训练与评估。研究者可通过加载预处理的视频片段与对应标注，在音频驱动生成任务中利用语音嵌入指导人物动作合成，在姿态引导生成中依据关键点序列生成连贯视频。数据集提供的标准划分方案便于进行跨身份泛化测试，其多镜头标注体系特别适合评估生成视频的镜头连贯性与视觉一致性，为多模态生成模型的性能验证提供了可靠基准。

背景与挑战

背景概述

TalkCuts数据集于2025年由麻省大学阿默斯特分校、腾讯AI、复旦大学、索尼AI及加州大学圣地亚哥分校等机构联合发布，旨在推动多镜头人类语音视频生成研究。该数据集包含164千个视频片段，总时长超过500小时，覆盖近景、半身及全身等多种镜头视角，并附带详尽的文本描述、二维关键点与三维SMPL-X运动标注。其核心研究问题聚焦于突破传统单镜头静态生成局限，通过提供大规模多模态数据支持，显著提升了生成视频的镜头连贯性与视觉表现力，为可控多镜头语音视频合成领域奠定了坚实基础。

当前挑战

在领域问题层面，多镜头语音视频生成需克服镜头切换时的时序一致性、人物身份保持及动作自然性等挑战，传统方法因缺乏动态视角数据难以实现长视频合成。构建过程中，数据采集面临高质量多镜头视频稀缺性问题，需通过严格过滤与多阶段标注流程确保数据可靠性；三维运动标注的精度提升依赖SMPL-X与HaMeR等工具的协同优化，以解决面部与手部细节重建的准确性难题。

常用场景

经典使用场景

在多媒体内容生成领域，TalkCuts数据集为多镜头语音视频合成研究提供了关键支撑。该数据集凭借164K个高质量视频片段和超过500小时的语音视频素材，成为训练多镜头转换模型的核心资源。其包含的六种标准镜头类型（从特写到全景）与详细的文本描述、2D关键点和3D SMPL-X运动标注，使得研究者能够系统探索镜头切换与语音内容的动态匹配关系。

实际应用

在虚拟数字人制作领域，TalkCuts支撑了从文本脚本到多镜头视频的端到端生成 pipeline。基于该数据集训练的模型可自动生成具有专业级镜头语言的教学视频、企业宣传片和娱乐内容。其多角度参考图像与语音指令的协同机制，使生成的视频在保持人物身份一致性的同时，实现与语音节奏匹配的自然手势和镜头转场，大幅降低了专业视频制作的技术门槛与时间成本。

衍生相关工作

该数据集催生了多项创新性研究工作，其中最具代表性的是Orator多模态生成框架。该框架通过DirectorLLM实现镜头规划、动作指导和语音调制的协同控制，开创了语言模型引导视频生成的新范式。后续研究在此基础上发展了基于检索增强的镜头切换预测、跨模态注意力机制等关键技术，推动了CogVideoX、Hallo3等视频扩散模型在多镜头场景下的适应性改进，形成了完整的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集