CSG-405

Name: CSG-405
Creator: 华南理工大学, 腾讯AI实验室
Published: 2025-07-09 21:02:12
License: 暂无描述

arXiv2025-07-09 更新2025-07-11 收录

下载链接：

https://mpilab.github.io/Democratizing-CSG/

下载链接

链接失效反馈

官方服务：

资源简介：

CSG-405数据集是一个包含405小时高分辨率视频的大型数据集，涵盖了71种常见的演讲类型，并标注有2D骨架和多样化的演讲者人口统计信息。该数据集旨在促进高保真度伴随手势视频生成的研究，其中视频片段经过多阶段过滤，包括骨架检测质量和音频唇同步评估。数据集包含不同性别、年龄和种族的演讲者，覆盖了正式和非正式的演讲场景，并具有丰富的2D骨架注释和高质量的图像分辨率。

The CSG-405 dataset is a large-scale resource containing 405 hours of high-resolution videos, covering 71 common speech types, and annotated with 2D skeletons and diverse speaker demographic information. This dataset aims to advance research on high-fidelity gesture-aware video generation, where video clips undergo multi-stage filtering including skeleton detection quality assessment and audio-visual lip synchronization evaluation. The dataset features speakers of varying genders, ages and ethnicities, spans both formal and informal speech scenarios, and provides rich 2D skeleton annotations along with high-quality video resolution.

提供机构：

华南理工大学, 腾讯AI实验室

创建时间：

2025-07-09

搜集汇总

数据集介绍

构建方式

在构建CSG-405数据集的过程中，研究团队采用了系统化的数据收集与标注流程。首先通过GPT-4o枚举71种常见演讲类型，从YouTube爬取高分辨率视频（1280×720像素），并采用多阶段质量过滤机制。关键创新在于使用DWPose模型对每帧进行133个全身关键点标注（遵循COCO-Whole-Body标准），同时通过SyncNet评估音频-唇部同步质量，确保数据精确性。视频被智能分割为5-15秒的片段后，经过视角筛选、多人说话检测等严格质量控制，最终统一处理为512×512分辨率，并创新性地采用以鼻尖、手腕为基准的局部运动表征方法，有效解耦整体运动与细微表情。

特点

作为目前最大的公开共语手势数据集，CSG-405包含147,550个视频片段（405小时），在规模上超越现有公开数据集30倍。其核心优势体现在多维度的多样性：涵盖71种演讲场景（从学术讲座到vlog），包含17,787名不同族裔、年龄的说话者，且完整标注面部、手部和身体关键点。数据质量方面，所有视频均通过骨架完整性、音频同步度等六项自动化检测，关键点坐标经过时序平滑处理。特别值得注意的是，该数据集首次提供了精细的人口统计学分布（性别比例42.2%女性，57.8%男性）和情感标签，为研究社会人口因素对手势生成的影响提供了可能。

使用方法

该数据集主要服务于音频驱动手势生成模型的训练与评估。使用时需配合论文提出的两阶段框架：首先利用数据集训练音频-骨架预测扩散模型（输入参考图像骨架与音频片段，输出同步的骨架序列），继而接入现有人体视频生成模型（如StableAnimator）合成最终视频。评估协议包含配对与非配对两种模式，推荐采用SyncNet（同步性）、FVD（视频质量）和CSIM（身份一致性）等指标。对于跨域研究，数据集的局部运动表征设计允许单独提取面部或手部运动特征，支持模块化研究。所有骨架数据均提供全局坐标和以身体部位为基准的相对坐标两种格式，适配不同建模需求。

背景与挑战

背景概述

CSG-405数据集由华南理工大学与腾讯AI实验室联合团队于2025年提出，是首个面向高保真协同语音手势视频生成任务的大规模公开数据集。该数据集包含405小时的高分辨率视频（512×512像素），涵盖71种语音类型和17,787名不同人口特征的说话者，突破了此前PATS（13.1小时）和TED-talks（3.1小时）等数据集的规模局限。其核心创新在于通过二维全身骨骼标注作为音频与视觉输出的桥梁，解决了语音驱动视频生成领域长期存在的一对多映射难题。该数据集的发布显著推动了数字人交互、虚拟主播等应用领域的研究民主化进程，被多篇顶会论文引用为基准测试标准。

当前挑战

在领域问题层面，CSG-405需解决语音-手势异步（SyncNet评估显示基线模型Sync-D值达13.64）、跨说话者身体形态适配（未使用参考骨骼时CSIM下降43%）两大核心挑战。数据构建过程中，研究团队面临多模态对齐的技术瓶颈——需同步处理音频唇形同步（Wav2Vec 2.0特征提取）、动态骨骼标注（DWPose模型133关键点检测）和视角归一化（侧/背面视频过滤率超38%）。此外，数据多样性保障需平衡71种语音类型分布（教育类占24.65%而娱乐类仅2.51%），并通过多阶段质量过滤（包括骨架完整性检测和音频-唇形同步评估）确保最终147,550个视频片段的标注一致性。

常用场景

经典使用场景

CSG-405数据集在语音驱动手势视频生成领域具有广泛的应用。该数据集通过提供405小时的高分辨率视频，覆盖71种不同的演讲类型，成为研究语音与手势同步生成任务的理想选择。其标注的2D全身骨架数据为模型训练提供了丰富的辅助条件，使得研究者能够开发出更加精准的音频到手势映射算法。

实际应用

在实际应用中，CSG-405数据集为虚拟数字人、人机交互和数字娱乐等领域提供了强大的支持。基于该数据集训练的模型能够生成与语音高度同步的手势视频，显著提升了虚拟形象的逼真度和表现力。其多样化的演讲类型和丰富的说话人属性分布，使得模型能够适应不同场景和用户群体的需求。

衍生相关工作

CSG-405数据集推动了多项相关研究的发展。基于该数据集，研究者提出了多种音频到骨架预测模型，如结合扩散模型和Transformer架构的轻量级框架。这些工作不仅提升了语音驱动手势生成的视觉质量和同步性，还为后续研究提供了可复现的基线模型和评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集