five

Pixel3DMM

收藏
arXiv2025-05-01 更新2025-05-03 收录
下载链接:
https://simongiebenhain.github.io/pixel3dmm
下载链接
链接失效反馈
官方服务:
资源简介:
Pixel3DMM数据集由慕尼黑工业大学等机构创建,旨在解决从单个RGB图像中进行3D人脸重建的问题。该数据集包含超过1000个身份和976K张图像,通过注册三个高质量的3D人脸数据集与FLAME网格拓扑结构来训练。数据集的内容包括预测每个像素的几何线索,如表面法线和UV坐标,以便于优化3D可变形人脸模型(3DMM)的参数。Pixel3DMM数据集在posed面部表情的几何精度方面超越了最先进的基准,并且在评估posed和neutral面部几何方面提供了新的基准。

The Pixel3DMM dataset, developed by institutions including the Technical University of Munich, aims to address the challenge of 3D face reconstruction from a single RGB image. This dataset includes over 1,000 unique identities and 976K images, and is constructed by registering three high-quality 3D face datasets to the FLAME mesh topology. The dataset provides per-pixel geometric cues such as surface normals and UV coordinates, to facilitate the optimization of parameters for 3D Deformable Face Models (3DMM). The Pixel3DMM dataset outperforms state-of-the-art benchmarks in terms of geometric accuracy for posed facial expressions, and establishes new benchmarks for evaluating both posed and neutral facial geometry.
提供机构:
慕尼黑工业大学
创建时间:
2025-05-01
原始信息汇总

Pixel3DMM数据集概述

数据集基本信息

  • 名称:Pixel3DMM
  • 用途:单图像3D人脸重建
  • 开发团队:慕尼黑工业大学、Synthesia、伦敦大学学院
  • 相关资源:
    • 论文:https://arxiv.org/abs/2505.00615
    • 代码:即将发布
    • 基准测试:即将发布
    • 数据:即将发布

核心内容

  • 方法概述:
    • 基于DINO ViT模型进行微调
    • 预测逐像素的表面法线和uv坐标
    • 通过优化3DMM参数实现3D人脸重建
  • 训练数据:
    • 包含NPHM、FaceScape和Ava256三个高质量3D人脸数据集
    • 总计超过1,000个身份和976K张图像
    • 使用FLAME网格拓扑进行注册

技术特点

  • 创新点:
    • 提出新的FLAME拟合优化方法
    • 引入uv坐标和法线估计作为优化目标
  • 性能表现:
    • 在带表情的面部几何重建上优于基线方法15%以上

基准测试

  • 特点:
    • 评估带表情和中性的面部几何
    • 包含高多样性的面部表情、视角和种族

相关研究

  • FLAME跟踪相关:VHAP、FlowFace、MetricalTracker
  • FLAME前馈回归器:MICA、EMOCA
  • 表面法线估计:Sapiens、Diff-E2E
搜集汇总
数据集介绍
main_image_url
构建方式
Pixel3DMM数据集的构建采用了多源高精度3D人脸数据的融合策略,通过非刚性配准技术将NPHM、FaceScape和Ava256三个前沿数据集统一注册至FLAME拓扑结构。研究团队精心设计了数据增强流程,包括随机视角渲染(40个摄像机位)、动态光照模拟(点光源随机化)以及基于ICLight扩散模型的照明条件增强,最终形成包含470个身份、976K样本的大规模训练集,其中每个样本均包含RGB图像、表面法线和UV坐标的真值标注。
特点
该数据集的核心价值在于其突破性的几何表达多样性,不仅涵盖23种精细表情和40种视角变化,还通过扩散模型生成了复杂的光照变体以增强泛化能力。作为首个支持同步评估中性表情与夸张表情重建质量的数据集,其创新性地引入了多视图视频数据集NeRSemble作为基准测试源,包含21个身份下20种极端表情的441组高保真三维扫描数据,填补了现有基准在表情动态范围评估方面的空白。
使用方法
研究者可通过两种范式利用该数据集:其一是训练端到端的几何先验网络,基于DINOv2骨干网络构建的ViT架构可预测像素级表面法线和UV坐标;其二是进行FLAME模型优化,通过结合预测的2D顶点损失(源自UV坐标)和法线渲染损失,在参数空间中求解身份、表情及相机参数。基准评估协议采用严格的三重指标:Chamfer距离(L1/L2)、法线余弦相似度及2.5mm阈值召回率,需注意预处理阶段需使用分割网络排除非面部区域。
背景与挑战
背景概述
Pixel3DMM是由慕尼黑工业大学、Synthesia和伦敦大学学院的研究团队于2025年提出的一个专注于单张RGB图像3D人脸重建的数据集。该数据集的核心研究问题在于解决从单张图像中重建3D人脸几何的挑战,特别是在深度模糊、光照与纹理解耦、以及身份与表情分离等复杂情况下的高精度重建。通过结合FLAME拓扑结构的高质量3D人脸数据集,Pixel3DMM提供了超过1000个身份和976K张图像的大规模训练数据,显著推动了计算机视觉在3D人脸建模领域的发展,并在游戏、影视制作和AR/VR应用中展现了广泛的影响力。
当前挑战
Pixel3DMM面临的挑战主要包括两方面:首先,在解决单图像3D人脸重建问题时,需要克服深度模糊、光照与纹理的歧义性,以及身份与表情信息的解耦难题;其次,在数据集构建过程中,研究人员需处理多源3D人脸数据的非刚性配准问题,并确保数据在FLAME拓扑结构下的一致性。此外,数据集的多样性和规模要求对极端表情、多视角和不同种族的人脸数据进行高效整合,这对算法的泛化能力和计算效率提出了更高要求。
常用场景
经典使用场景
Pixel3DMM数据集在单图像3D人脸重建领域具有广泛的应用。通过结合视觉变换器(ViTs)和3D可变形人脸模型(3DMM),该数据集能够从单张RGB图像中精确预测像素级的表面法线和UV坐标,从而约束3D人脸模型的优化。这一方法在极端视角、复杂光照条件和遮挡情况下表现出色,为计算机视觉领域的研究提供了强有力的工具。
解决学术问题
Pixel3DMM解决了单图像3D人脸重建中的多个关键学术问题,包括深度模糊、光照与纹理的歧义性,以及身份与表情信息的解耦。通过引入像素对齐的几何先验,该数据集显著提升了重建的几何精度,尤其在极端表情下的重建效果优于现有基线方法15%以上。此外,其提出的新基准测试首次允许同时评估中性几何和表情几何,为相关研究提供了更全面的评估标准。
衍生相关工作
Pixel3DMM衍生了一系列经典工作,包括基于FLAME模型的优化方法(如FlowFace和MetricalTracker)以及多视角重建技术(如DUSt3R)。其提出的像素对齐几何先验也启发了后续研究,如TokenFace和EMOCA,这些工作进一步扩展了3D人脸重建的应用场景。此外,该数据集的高质量标注和公开可用性,为社区提供了宝贵的资源,推动了单图像3D重建技术的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作