Pixel3DMM

Name: Pixel3DMM
Creator: 慕尼黑工业大学
Published: 2025-05-01 23:47:03
License: 暂无描述

arXiv2025-05-01 更新2025-05-03 收录

下载链接：

https://simongiebenhain.github.io/pixel3dmm

下载链接

链接失效反馈

官方服务：

资源简介：

Pixel3DMM数据集由慕尼黑工业大学等机构创建，旨在解决从单个RGB图像中进行3D人脸重建的问题。该数据集包含超过1000个身份和976K张图像，通过注册三个高质量的3D人脸数据集与FLAME网格拓扑结构来训练。数据集的内容包括预测每个像素的几何线索，如表面法线和UV坐标，以便于优化3D可变形人脸模型（3DMM）的参数。Pixel3DMM数据集在posed面部表情的几何精度方面超越了最先进的基准，并且在评估posed和neutral面部几何方面提供了新的基准。

The Pixel3DMM dataset, developed by institutions including the Technical University of Munich, aims to address the challenge of 3D face reconstruction from a single RGB image. This dataset includes over 1,000 unique identities and 976K images, and is constructed by registering three high-quality 3D face datasets to the FLAME mesh topology. The dataset provides per-pixel geometric cues such as surface normals and UV coordinates, to facilitate the optimization of parameters for 3D Deformable Face Models (3DMM). The Pixel3DMM dataset outperforms state-of-the-art benchmarks in terms of geometric accuracy for posed facial expressions, and establishes new benchmarks for evaluating both posed and neutral facial geometry.

提供机构：

慕尼黑工业大学

创建时间：

2025-05-01

原始信息汇总

Pixel3DMM数据集概述

数据集基本信息

名称：Pixel3DMM
用途：单图像3D人脸重建
开发团队：慕尼黑工业大学、Synthesia、伦敦大学学院
相关资源：
- 论文：https://arxiv.org/abs/2505.00615
- 代码：即将发布
- 基准测试：即将发布
- 数据：即将发布

核心内容

方法概述：
- 基于DINO ViT模型进行微调
- 预测逐像素的表面法线和uv坐标
- 通过优化3DMM参数实现3D人脸重建
训练数据：
- 包含NPHM、FaceScape和Ava256三个高质量3D人脸数据集
- 总计超过1,000个身份和976K张图像
- 使用FLAME网格拓扑进行注册

技术特点

创新点：
- 提出新的FLAME拟合优化方法
- 引入uv坐标和法线估计作为优化目标
性能表现：
- 在带表情的面部几何重建上优于基线方法15%以上

基准测试

特点：
- 评估带表情和中性的面部几何
- 包含高多样性的面部表情、视角和种族

相关研究

FLAME跟踪相关：VHAP、FlowFace、MetricalTracker
FLAME前馈回归器：MICA、EMOCA
表面法线估计：Sapiens、Diff-E2E

搜集汇总

数据集介绍

构建方式

Pixel3DMM数据集的构建采用了多源高精度3D人脸数据的融合策略，通过非刚性配准技术将NPHM、FaceScape和Ava256三个前沿数据集统一注册至FLAME拓扑结构。研究团队精心设计了数据增强流程，包括随机视角渲染（40个摄像机位）、动态光照模拟（点光源随机化）以及基于ICLight扩散模型的照明条件增强，最终形成包含470个身份、976K样本的大规模训练集，其中每个样本均包含RGB图像、表面法线和UV坐标的真值标注。

特点

该数据集的核心价值在于其突破性的几何表达多样性，不仅涵盖23种精细表情和40种视角变化，还通过扩散模型生成了复杂的光照变体以增强泛化能力。作为首个支持同步评估中性表情与夸张表情重建质量的数据集，其创新性地引入了多视图视频数据集NeRSemble作为基准测试源，包含21个身份下20种极端表情的441组高保真三维扫描数据，填补了现有基准在表情动态范围评估方面的空白。

使用方法

研究者可通过两种范式利用该数据集：其一是训练端到端的几何先验网络，基于DINOv2骨干网络构建的ViT架构可预测像素级表面法线和UV坐标；其二是进行FLAME模型优化，通过结合预测的2D顶点损失（源自UV坐标）和法线渲染损失，在参数空间中求解身份、表情及相机参数。基准评估协议采用严格的三重指标：Chamfer距离（L1/L2）、法线余弦相似度及2.5mm阈值召回率，需注意预处理阶段需使用分割网络排除非面部区域。

背景与挑战

背景概述

Pixel3DMM是由慕尼黑工业大学、Synthesia和伦敦大学学院的研究团队于2025年提出的一个专注于单张RGB图像3D人脸重建的数据集。该数据集的核心研究问题在于解决从单张图像中重建3D人脸几何的挑战，特别是在深度模糊、光照与纹理解耦、以及身份与表情分离等复杂情况下的高精度重建。通过结合FLAME拓扑结构的高质量3D人脸数据集，Pixel3DMM提供了超过1000个身份和976K张图像的大规模训练数据，显著推动了计算机视觉在3D人脸建模领域的发展，并在游戏、影视制作和AR/VR应用中展现了广泛的影响力。

当前挑战

Pixel3DMM面临的挑战主要包括两方面：首先，在解决单图像3D人脸重建问题时，需要克服深度模糊、光照与纹理的歧义性，以及身份与表情信息的解耦难题；其次，在数据集构建过程中，研究人员需处理多源3D人脸数据的非刚性配准问题，并确保数据在FLAME拓扑结构下的一致性。此外，数据集的多样性和规模要求对极端表情、多视角和不同种族的人脸数据进行高效整合，这对算法的泛化能力和计算效率提出了更高要求。

常用场景

经典使用场景

Pixel3DMM数据集在单图像3D人脸重建领域具有广泛的应用。通过结合视觉变换器（ViTs）和3D可变形人脸模型（3DMM），该数据集能够从单张RGB图像中精确预测像素级的表面法线和UV坐标，从而约束3D人脸模型的优化。这一方法在极端视角、复杂光照条件和遮挡情况下表现出色，为计算机视觉领域的研究提供了强有力的工具。

解决学术问题

Pixel3DMM解决了单图像3D人脸重建中的多个关键学术问题，包括深度模糊、光照与纹理的歧义性，以及身份与表情信息的解耦。通过引入像素对齐的几何先验，该数据集显著提升了重建的几何精度，尤其在极端表情下的重建效果优于现有基线方法15%以上。此外，其提出的新基准测试首次允许同时评估中性几何和表情几何，为相关研究提供了更全面的评估标准。

衍生相关工作

Pixel3DMM衍生了一系列经典工作，包括基于FLAME模型的优化方法（如FlowFace和MetricalTracker）以及多视角重建技术（如DUSt3R）。其提出的像素对齐几何先验也启发了后续研究，如TokenFace和EMOCA，这些工作进一步扩展了3D人脸重建的应用场景。此外，该数据集的高质量标注和公开可用性，为社区提供了宝贵的资源，推动了单图像3D重建技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集