未提供具体数据集名称
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://perceptual-3d-talking-head.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由浦项科技大学的研究团队创建,用于训练和评估3D说话人头部的生成模型。数据集通过大量的2D同步说话脸视频学习得到音频-视觉语音表示,并进一步与3D面部网格结合,构建了丰富的语音-网格同步表示空间。该空间能够捕捉到语音和唇部运动之间的复杂对应关系,用于提高现有3D说话人头模型中唇部同步的感知准确性。
This dataset was developed by a research team at Pohang University of Science and Technology for training and evaluating generative models for 3D talking head generation. It extracts audio-visual speech representations from a large-scale corpus of synchronized 2D talking-face videos, and further integrates these representations with 3D facial meshes to construct a rich synchronized speech-mesh representation space. This space captures the complex correspondences between speech and lip movements, aiming to improve the perceptual accuracy of lip synchronization in existing 3D talking head models.
提供机构:
POSTECH(浦项科技大学)
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
该数据集通过两阶段训练流程构建,首先利用大规模2D唇语视频数据集LRS3学习音频-视觉语音表示,随后将该表示作为锚定空间,通过对比学习将3D面部网格映射到该空间。具体而言,第一阶段采用基于Transformer的架构,结合掩码自编码器和跨模态对比学习策略;第二阶段则设计专门的3D网格编码器,使其输出特征与预训练的语音表示空间对齐。为增强数据多样性,研究团队还通过单目人脸重建方法从MEAD视频中构建了包含不同情感强度的MEAD-3D数据集。
特点
该数据集的核心特征体现在三个方面:时间同步性通过动态时间规整算法精确量化唇部运动与语音信号的时序对齐;唇部可读性采用基于语音-网格表示空间的感知评分,能有效捕捉音素与视位的复杂对应关系;表现力则通过语音强度与唇部运动幅度的相关系数来衡量。特别值得注意的是,该数据集突破了传统3D说话头数据在强度范围和规模上的局限,LRS3-3D和MEAD-3D分别包含78,788和15个说话人的61.1小时与10.2小时数据,其语音和唇部运动强度的标准差显著高于VOCASET等传统数据集。
使用方法
该数据集主要应用于提升语音驱动3D说话头生成的感知质量。其语音-网格表示空间可作为即插即用的感知损失函数,通过计算生成网格与输入语音在共享表示空间中的对比损失来优化现有模型。具体使用时,需将生成的面部网格分割为5帧的滑动窗口,与对应语音片段共同输入预训练的双编码器,计算InfoNCE损失并加权融合至原始训练目标。此外,该表示空间还可作为评估指标(PLRS),或与MTM、SLCC等新提出的指标共同组成多维评估体系。为充分发挥数据集价值,建议在训练时组合使用VOCASET和MEAD-3D以兼顾基础唇动质量和表现力。
背景与挑战
背景概述
该数据集由POSTECH、KRAFTON和KAIST的研究团队于2025年提出,聚焦于语音驱动的3D说话头生成领域。研究团队通过定义时间同步性、唇部可读性和表现力三个感知准则,构建了语音-网格同步表征空间,旨在解决现有模型在语音特征与唇部运动对应关系建模上的不足。该工作通过引入感知损失函数和新型评估指标,显著提升了生成结果的感知真实性,对虚拟现实、数字娱乐等需要高保真虚拟角色的应用场景具有重要价值。
当前挑战
主要挑战体现在两方面:在领域问题层面,需解决语音强度变化与唇部运动幅度的非线性映射、音素-视素对应关系的多义性,以及时间同步性的毫秒级精度要求等核心难题;在构建过程层面,面临大规模3D面部运动数据稀缺、跨模态表征对齐的优化复杂度高,以及现有评估指标(如LVE)无法有效反映感知质量等技术瓶颈。此外,数据采集过程中还需克服个体发音差异带来的运动模式多样性问题。
常用场景
经典使用场景
在三维虚拟人像生成领域,该数据集为语音驱动的面部动画研究提供了关键支持。通过精确捕捉语音信号与三维面部网格运动之间的复杂对应关系,该数据集特别适用于开发能够生成具有高度感知准确性的唇部同步动画的模型。其典型应用场景包括训练深度学习模型以实现语音到面部动画的转换,其中模型需要学习如何根据输入的语音特征生成自然且时间同步的面部表情和唇部运动。
解决学术问题
该数据集有效解决了三维虚拟人像生成中的几个核心学术问题。首先,它通过定义时间同步性、唇部可读性和表现力三个关键标准,为评估感知准确的唇部运动提供了理论框架。其次,数据集构建的语音-网格同步表示空间解决了现有方法依赖均方误差损失而忽视语音与唇部运动真实对应关系的问题。此外,通过引入大规模的三维面部运动数据,该数据集克服了现有数据集在面部运动模式范围和强度多样性方面的局限性。
衍生相关工作
该数据集衍生了一系列重要的相关研究工作。基于其提出的语音-网格表示空间,研究者开发了可插拔的感知损失函数,显著提升了现有三维虚拟人像生成模型的质量。此外,该数据集还催生了三个新的评估指标:平均时间错位(MTM)、感知唇部可读性分数(PLRS)和语音-唇部强度相关系数(SLCC),这些指标已被广泛应用于后续研究中。数据集构建方法也启发了其他领域的大规模三维面部运动数据采集工作。
以上内容由遇见数据集搜集并总结生成



