SpeakerVid-5M

github2025-07-23 更新2025-07-25 收录

下载链接：

https://github.com/Dorniwang/SpeakerVid-5M-Code

下载链接

链接失效反馈

官方服务：

资源简介：

SpeakerVid-5M是第一个大规模、高质量的数据集，专为**音频-视觉二元交互虚拟人生成**而设计。包含超过**8,743小时**的数据，涵盖**520多万个**人类肖像视频片段。数据集涵盖了多种交互类型，包括单声道讲话、倾听和二元对话。

SpeakerVid-5M is the first large-scale, high-quality dataset specifically designed for audio-visual dual interactive virtual human generation. It contains over 8,743 hours of data, covering more than 5.2 million human portrait video clips. The dataset encompasses a variety of interaction types, including monologic speech, listening, and dyadic conversations.

创建时间：

2025-07-17

原始信息汇总

SpeakerVid-5M数据集概述

数据集基本信息

名称: SpeakerVid-5M
类型: 音频-视觉双人交互虚拟人生成数据集
规模:
- 视频时长: 8,743小时
- 视频片段数: 5.2 million
交互类型: 单人讲话、倾听、双人对话

数据内容

数据来源: YouTube公开视频
标注内容:
- 基础标注（时间范围、空间范围）
- 骨骼序列（DWpose）
- 语音识别（ASR）
- 清晰度评分（手部和面部）
- 多模态大模型（MLLM）标注

数据获取与处理

数据下载: Hugging Face链接
处理工具:
- split_clip_from_anno.py: 根据标注分割视频
- traversal_clips.py: 生成视频列表

数据组织结构

merge_anno: 包含每个片段的详细标注
dwpose: 骨骼序列数据（需自行计算）
asr: 语音识别结果
l_score: 清晰度评分
anno (caption): 多模态标注
build_dataset: 训练数据集构建代码
benchmark: 测试集和评估指标代码

评估指标

音频质量: wavlm_simo_metrics.py
对话一致性: corh
面部表情: expression_metrics.py
音视频同步: sync_metrics
视频质量: video_metrics.sh

模型权重

资产模型: Hugging Face链接
说话者检查点: Hugging Face链接
模型权重: Hugging Face链接

数据使用政策

用途限制: 仅限非商业科研教育用途
版权声明: 原始内容版权归原作者所有
删除政策: 提供侵权内容删除机制
免责声明: 数据集按"原样"提供，不承担任何责任

技术支持

联系邮箱: zhangyou24@mails.tsinghua.edu.cn

搜集汇总

数据集介绍

构建方式

SpeakerVid-5M数据集通过系统化的多模态数据采集流程构建，从YouTube平台获取原始视频素材后，采用分阶段标注策略实现数据精加工。技术团队基于3D-Speaker和DWpose框架进行人物姿态估计，结合Whisper模型完成语音转录，运用YOLO算法实现视觉目标检测，并通过SceneDetect工具进行场景分割。数据构建过程特别注重时空对齐，每个视频片段均包含精确到毫秒级的时间戳标注和像素级的空间坐标信息，最终形成包含520万视频片段、总时长8743小时的大规模语料库。

使用方法

研究者可通过Hugging Face平台获取结构化数据索引文件，使用all_data_list.json定位原始视频资源后，依据merge_anno中的时空标注进行片段提取。数据集提供完整的预处理工具链，包括split_clip_from_anno.py脚本实现自动化视频切割，traversal_clips.py支持自定义数据子集构建。针对不同研究需求，benchmark目录包含音频同步度、表情FID等7类评估指标的标准化实现，用户下载预训练模型权重后即可快速复现实验。需特别注意，使用前应配置Python3.8环境和相关依赖库，商业用途需额外授权。

背景与挑战

背景概述

SpeakerVid-5M数据集由清华大学研究团队于2023年发布，是首个专注于音频-视觉双模态交互式虚拟人生成的大规模高质量数据集。该数据集包含超过8,743小时的视频素材，涵盖520万个人物肖像视频片段，涉及单人多模态行为与双人对话交互等多种场景。作为数字人类生成领域的里程碑式资源，其创新性地整合了语音识别、姿态估计、场景分割等多维度标注信息，为虚拟数字人驱动、跨模态生成等前沿研究方向提供了关键数据支撑。数据集采用严格的伦理审查机制，所有素材均来自公开网络资源，并建立了完善的内容溯源与下架机制。

当前挑战

在解决音频-视觉交互式虚拟人生成的核心问题上，数据集需应对多模态时序对齐、跨模态特征融合、自然对话动作生成等复杂挑战。数据构建过程中面临三大技术难点：海量视频素材的时空一致性标注需结合DWpose骨架检测与Whisper语音识别技术；人物交互场景的精准分割依赖改进的YOLO目标检测与3D-Speaker声纹分离算法；数据质量控制涉及面部清晰度评分、光照均衡化等多维度量体系。此外，8PB级原始数据的分布式处理与1.5TB标注数据的存储优化构成了显著的工程挑战。

常用场景

经典使用场景

在虚拟人交互生成领域，SpeakerVid-5M数据集为研究者提供了丰富的音频-视觉双模态交互数据。该数据集包含超过520万个人物肖像视频片段，涵盖了单人对白、倾听以及双人对话等多种交互类型，为虚拟人生成模型的训练与评估奠定了坚实基础。其高质量标注和多样化场景使其成为音频驱动虚拟人动画合成的理想选择，尤其在唇形同步、表情迁移等任务中展现出卓越性能。

解决学术问题

该数据集有效解决了虚拟人研究中多模态对齐、跨模态生成等核心挑战。通过提供精确的骨骼序列、语音转录和清晰度评分，研究者可深入探究音频与视觉信号的时空关联性。其大规模标注数据显著提升了生成模型的自然度和表现力，为对话一致性、情感表达等关键指标提供了量化基准，推动了数字人技术从静态展示向动态交互的范式转变。

实际应用

在实际应用层面，SpeakerVid-5M支撑了智能客服、虚拟主播等场景的落地。基于该数据集训练的模型能生成口型精准匹配的虚拟形象，显著提升远程教育的交互体验。其多视角对话数据更被广泛应用于会议记录自动生成系统，通过捕捉发言者的微表情和肢体语言，实现更自然的远程协作环境。

数据集最近研究