five

Pixel3DMM|3D人脸重建数据集|计算机视觉数据集

收藏
arXiv2025-05-01 更新2025-05-03 收录
3D人脸重建
计算机视觉
下载链接:
https://simongiebenhain.github.io/pixel3dmm
下载链接
链接失效反馈
资源简介:
Pixel3DMM数据集由慕尼黑工业大学等机构创建,旨在解决从单个RGB图像中进行3D人脸重建的问题。该数据集包含超过1000个身份和976K张图像,通过注册三个高质量的3D人脸数据集与FLAME网格拓扑结构来训练。数据集的内容包括预测每个像素的几何线索,如表面法线和UV坐标,以便于优化3D可变形人脸模型(3DMM)的参数。Pixel3DMM数据集在posed面部表情的几何精度方面超越了最先进的基准,并且在评估posed和neutral面部几何方面提供了新的基准。
提供机构:
慕尼黑工业大学
创建时间:
2025-05-01
原始信息汇总

Pixel3DMM数据集概述

数据集基本信息

  • 名称:Pixel3DMM
  • 用途:单图像3D人脸重建
  • 开发团队:慕尼黑工业大学、Synthesia、伦敦大学学院
  • 相关资源:
    • 论文:https://arxiv.org/abs/2505.00615
    • 代码:即将发布
    • 基准测试:即将发布
    • 数据:即将发布

核心内容

  • 方法概述:
    • 基于DINO ViT模型进行微调
    • 预测逐像素的表面法线和uv坐标
    • 通过优化3DMM参数实现3D人脸重建
  • 训练数据:
    • 包含NPHM、FaceScape和Ava256三个高质量3D人脸数据集
    • 总计超过1,000个身份和976K张图像
    • 使用FLAME网格拓扑进行注册

技术特点

  • 创新点:
    • 提出新的FLAME拟合优化方法
    • 引入uv坐标和法线估计作为优化目标
  • 性能表现:
    • 在带表情的面部几何重建上优于基线方法15%以上

基准测试

  • 特点:
    • 评估带表情和中性的面部几何
    • 包含高多样性的面部表情、视角和种族

相关研究

  • FLAME跟踪相关:VHAP、FlowFace、MetricalTracker
  • FLAME前馈回归器:MICA、EMOCA
  • 表面法线估计:Sapiens、Diff-E2E
AI搜集汇总
数据集介绍
main_image_url
构建方式
Pixel3DMM数据集的构建采用了多源高精度3D人脸数据的融合策略,通过非刚性配准技术将NPHM、FaceScape和Ava256三个前沿数据集统一注册至FLAME拓扑结构。研究团队精心设计了数据增强流程,包括随机视角渲染(40个摄像机位)、动态光照模拟(点光源随机化)以及基于ICLight扩散模型的照明条件增强,最终形成包含470个身份、976K样本的大规模训练集,其中每个样本均包含RGB图像、表面法线和UV坐标的真值标注。
特点
该数据集的核心价值在于其突破性的几何表达多样性,不仅涵盖23种精细表情和40种视角变化,还通过扩散模型生成了复杂的光照变体以增强泛化能力。作为首个支持同步评估中性表情与夸张表情重建质量的数据集,其创新性地引入了多视图视频数据集NeRSemble作为基准测试源,包含21个身份下20种极端表情的441组高保真三维扫描数据,填补了现有基准在表情动态范围评估方面的空白。
使用方法
研究者可通过两种范式利用该数据集:其一是训练端到端的几何先验网络,基于DINOv2骨干网络构建的ViT架构可预测像素级表面法线和UV坐标;其二是进行FLAME模型优化,通过结合预测的2D顶点损失(源自UV坐标)和法线渲染损失,在参数空间中求解身份、表情及相机参数。基准评估协议采用严格的三重指标:Chamfer距离(L1/L2)、法线余弦相似度及2.5mm阈值召回率,需注意预处理阶段需使用分割网络排除非面部区域。
背景与挑战
背景概述
Pixel3DMM是由慕尼黑工业大学、Synthesia和伦敦大学学院的研究团队于2025年提出的一个专注于单张RGB图像3D人脸重建的数据集。该数据集的核心研究问题在于解决从单张图像中重建3D人脸几何的挑战,特别是在深度模糊、光照与纹理解耦、以及身份与表情分离等复杂情况下的高精度重建。通过结合FLAME拓扑结构的高质量3D人脸数据集,Pixel3DMM提供了超过1000个身份和976K张图像的大规模训练数据,显著推动了计算机视觉在3D人脸建模领域的发展,并在游戏、影视制作和AR/VR应用中展现了广泛的影响力。
当前挑战
Pixel3DMM面临的挑战主要包括两方面:首先,在解决单图像3D人脸重建问题时,需要克服深度模糊、光照与纹理的歧义性,以及身份与表情信息的解耦难题;其次,在数据集构建过程中,研究人员需处理多源3D人脸数据的非刚性配准问题,并确保数据在FLAME拓扑结构下的一致性。此外,数据集的多样性和规模要求对极端表情、多视角和不同种族的人脸数据进行高效整合,这对算法的泛化能力和计算效率提出了更高要求。
常用场景
经典使用场景
Pixel3DMM数据集在单图像3D人脸重建领域具有广泛的应用。通过结合视觉变换器(ViTs)和3D可变形人脸模型(3DMM),该数据集能够从单张RGB图像中精确预测像素级的表面法线和UV坐标,从而约束3D人脸模型的优化。这一方法在极端视角、复杂光照条件和遮挡情况下表现出色,为计算机视觉领域的研究提供了强有力的工具。
解决学术问题
Pixel3DMM解决了单图像3D人脸重建中的多个关键学术问题,包括深度模糊、光照与纹理的歧义性,以及身份与表情信息的解耦。通过引入像素对齐的几何先验,该数据集显著提升了重建的几何精度,尤其在极端表情下的重建效果优于现有基线方法15%以上。此外,其提出的新基准测试首次允许同时评估中性几何和表情几何,为相关研究提供了更全面的评估标准。
衍生相关工作
Pixel3DMM衍生了一系列经典工作,包括基于FLAME模型的优化方法(如FlowFace和MetricalTracker)以及多视角重建技术(如DUSt3R)。其提出的像素对齐几何先验也启发了后续研究,如TokenFace和EMOCA,这些工作进一步扩展了3D人脸重建的应用场景。此外,该数据集的高质量标注和公开可用性,为社区提供了宝贵的资源,推动了单图像3D重建技术的快速发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

人民日报语料库

该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。

github 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

EmoBench-M

EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集,旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论,包含13个评估场景,涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据,为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。

arXiv 收录