NLML-HPE

Name: NLML-HPE
Creator: 西班牙庞培法布拉大学工程系
Published: 2025-07-24 22:08:33
License: 暂无描述

arXiv2025-07-24 更新2025-07-26 收录

下载链接：

https://github.com/MahdiGhafoorian/NLML_HPE

下载链接

链接失效反馈

官方服务：

资源简介：

NLML-HPE数据集是一个用于头部姿态估计的数据集。该数据集由庞培法布拉大学工程系的研究人员创建，通过旋转3D头部模型并渲染对应的2D图像来生成。数据集包含了精确且一致的2D头部姿态数据，用于训练和测试头部姿态估计模型。该数据集旨在解决现有HPE数据集存在的姿态标注不准确的问题，并提供了高度准确的数据集，以提高头部姿态估计的准确性和实时性。

The NLML-HPE dataset is a dataset for head pose estimation (HPE). It was created by researchers from the Department of Engineering, Pompeu Fabra University, and generated by rotating 3D head models and rendering their corresponding 2D images. The dataset contains precise and consistent 2D head pose data for training and testing head pose estimation models. This dataset aims to address the issue of inaccurate pose annotations in existing HPE datasets, and provides a highly accurate dataset to improve the accuracy and real-time performance of head pose estimation.

提供机构：

西班牙庞培法布拉大学工程系

创建时间：

2025-07-24

原始信息汇总

NLML_HPE数据集概述

数据集基本信息

名称: NLML_HPE (Head Pose Estimation with Limited Data via Manifold Learning)
类型: 头部姿态估计数据集
许可证: MIT
框架: PyTorch
相关数据集:
- FACESCAPE
- BIWI
- AFLW
- 300W_LP

数据集内容

数据格式: 包含渲染图像文件（如.jpg格式）和预处理后的数据文件（如.npz格式）
数据特点:
- 每个身份包含所有欧拉角（偏航、俯仰、滚转）组合的样本
- 使用PyTorch3D从FaceScape 3D模型渲染生成

数据集获取

主数据集:
- FaceScape数据集
子集:
- mini_FaceScape_db.zip
验证数据集:
- 300W-LP和AFLW2000
- BIWI数据集

目录结构

NLML_HPE ├── datasets │ ├── 300W_LP │ ├── files.txt │ ├── AFLW2000 │ ├── files.txt │ ├── BIWI │ ├── BIWI.npz │ ├── Facescape │ ├── rendered_db │ ├── 1
│ ├── ID1_(0_0_0).jpg │ ├── ID1_(0_0_10).jpg

评估结果

AFLW2000性能比较

Method	Yaw	Pitch	Roll	MAE
3DDFA	4.71	27.08	28.43	20.07
NLML-HPE (ours)	3.06	4.23	1.96	3.08

BIWI性能比较

Method	Yaw	Pitch	Roll	MAE
3DDFA	5.50	41.90	13.22	20.20
NLML-HPE (ours)	3.58	5.29	2.67	3.85

搜集汇总

数据集介绍

构建方式

NLML-HPE数据集的构建采用了创新的非线性流形学习方法，通过结合张量分解（Tucker分解）和前馈神经网络，将头部姿态估计问题转化为回归任务。具体而言，研究团队通过旋转3D头部模型生成精确且一致的2D头部姿态数据集，解决了现有数据集标注不准确的问题。该数据集包含300个不同身份的3D模型，在固定姿态集合下进行旋转并渲染对应的2D图像，确保了数据的精确性和一致性。此外，通过归一化提取的面部关键点，消除了尺度和平移的影响，使得所有面部图像具有相同的基准。

特点

NLML-HPE数据集的主要特点在于其精确的姿态标注和多样化的姿态覆盖。数据集涵盖了从-50°到+50°的偏航角、-40°到+40°的俯仰角以及-30°到+30°的翻滚角，以10°为间隔进行离散化，确保了姿态的全面性和连续性。此外，数据集通过张量分解将姿态变化分离到不同的子空间中，每个子空间对应一个欧拉角，从而能够准确地捕捉旋转的固有特性。这种设计使得数据集不仅适用于传统的分类任务，还能有效支持回归模型的训练。

使用方法

NLML-HPE数据集的使用方法主要包括三个步骤：首先，通过张量分解将输入的面部关键点映射到连续的姿态角度表示中；其次，利用训练好的轻量级编码器和多层感知机（MLP）头实时预测姿态角度；最后，通过优化余弦函数参数，确保预测结果与旋转流形结构一致。该数据集特别适合用于训练和评估头部姿态估计算法，尤其是在数据有限的情况下。研究团队还提供了公开的训练和测试代码，方便其他研究者复现和扩展其工作。

背景与挑战

背景概述

NLML-HPE数据集由西班牙庞培法布拉大学的Mahdi Ghafourian和Federico M. Sukno团队于2025年提出，专注于头部姿态估计（Head Pose Estimation, HPE）领域。该数据集通过非线性流形学习技术，解决了传统分类方法在有限训练数据下的性能瓶颈问题。其核心创新在于将头部姿态估计建模为回归问题，并利用张量分解技术分离欧拉角（偏航、俯仰、翻滚）的流形空间。数据集基于FaceScape的3D头部模型生成，通过精确的2D渲染避免了人工标注误差，为实时HPE应用提供了高精度基准。该工作发表于计算机视觉顶会，推动了基于流形学习的姿态估计方法发展。

当前挑战

NLML-HPE面临双重挑战：在领域层面，现有HPE数据集普遍存在姿态标注不准确的问题，且极端姿态下的特征提取受限；在构建层面，张量分解要求训练数据必须满足姿态一致性（每个欧拉角组合需对应唯一样本），而传统插值填充会导致特征失真。为此，研究团队通过3D模型旋转生成合成数据，但受限于MediaPipe特征提取器，有效姿态范围仅覆盖偏航±50°、俯仰±40°、翻滚±30°。此外，实时性要求迫使模型采用轻量级编码器替代耗时的张量分解运算，这对有限数据下的流形建模精度提出了严峻考验。

常用场景

经典使用场景

NLML-HPE数据集在计算机视觉领域中被广泛应用于头部姿态估计任务，特别是在训练数据有限的情况下。该数据集通过非线性流形学习技术，将头部姿态估计问题转化为回归问题，从而能够更精确地预测头部的欧拉角（偏航、俯仰、旋转）。其经典使用场景包括人机交互、虚拟现实和面部识别等领域，这些场景需要高精度的头部姿态信息以提升用户体验和系统性能。

衍生相关工作

NLML-HPE数据集衍生了一系列经典工作，包括基于流形学习的头部姿态估计方法和实时姿态预测系统。相关研究如TokenHPE和6DRepNet等，均在该数据集的基础上进一步优化了姿态估计的准确性和计算效率。这些工作不仅推动了头部姿态估计技术的发展，还为其他计算机视觉任务提供了新的研究思路和方法。

数据集最近研究