UET-Headpose

Name: UET-Headpose
Creator: 越南河内国家大学下属工程技术大学人工智能实验室
Published: 2021-11-13 12:54:20
License: 暂无描述

arXiv2021-11-13 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2111.07039v1

下载链接

链接失效反馈

官方服务：

资源简介：

UET-Headpose数据集是由越南河内国家大学下属工程技术大学人工智能实验室创建的，旨在通过使用绝对方向传感器而非深度相机来收集头部姿态图像，以降低成本和简化设置。该数据集包含12,848张图像，覆盖了从-179到179度的全方位yaw角。数据集的创建过程涉及使用传感器和监控摄像头，以及手动标注图像。UET-Headpose数据集主要应用于人机交互和顾客行为分析等领域，旨在解决现有数据集在处理大角度数据时的不足。

The UET-Headpose dataset was created by the Artificial Intelligence Laboratory at the University of Engineering and Technology, Vietnam National University, Hanoi. It aims to collect head pose images using absolute orientation sensors rather than depth cameras, thereby reducing costs and simplifying the experimental setup. This dataset contains 12,848 images, covering full-range yaw angles ranging from -179° to 179°. The construction of this dataset involved the utilization of sensors and surveillance cameras, alongside manual image annotation. The UET-Headpose dataset is primarily applied in fields such as human-computer interaction and customer behavior analysis, aiming to address the limitations of existing datasets when handling large-angle pose data.

提供机构：

越南河内国家大学下属工程技术大学人工智能实验室

创建时间：

2021-11-13

搜集汇总

数据集介绍

构建方式

UET-Headpose数据集的构建基于一种新颖的传感器驱动方案，旨在以低成本、易部署的方式获取俯视视角下的头部姿态图像。系统核心包括一个头戴式绝对方向传感器（MCU-055），通过I2C协议连接至Arduino板，利用WiFi经由MQTT协议将实时欧拉角数据（偏航角、俯仰角、翻滚角）传输至管理计算机。同时，一台海康威视监控摄像头（分辨率为2688×1520，帧率25fps）同步采集图像。数据采集时，受试者将下巴置于特制下巴托上以固定头部，传感器通过耳挂和3D打印支架精准贴合，确保角度测量稳定。计算机根据传感器JSON数据中的时间戳，通过摄像头API抓取对应帧，最终生成包含原始图像、姿态标签及人脸坐标的完整数据集。

特点

该数据集的核心特点在于其独特的俯视视角和全范围偏航角覆盖。与依赖深度相机或复杂实验室环境的CMU Panoptic等数据集不同，UET-Headpose采用低成本（总成本低于150美元）的绝对方向传感器，可在多种真实场景中快速部署，背景丰富多样。数据集包含来自9位受试者的12848张图像，偏航角均匀分布于[-179°, 179°]全范围，有效弥补了300W-LP和BIWI等数据集角度范围有限的缺陷。此外，每张图像均附带精确的人脸边界框坐标（垂直和水平方向分别扩展40%和60%），便于后续人脸裁剪与模型训练。这种设计使得模型能够学习360°范围内的头部姿态，尤其适用于安防摄像头等俯视监控场景。

使用方法

UET-Headpose数据集的使用方法灵活多样，适用于头部姿态估计模型的训练与评估。数据集已划分为训练集（7人，10848张图像）和验证集（2人，2000张图像），并建议转换为HDF5格式以优化训练效率（实验表明可提速8倍以上）。使用时，可单独训练模型，或与300W-LP、CMU Panoptic等数据集联合训练，以提升泛化能力。论文中提出的FSANet-Wide模型即基于FSA-Net架构改进，通过扩展SSR模块输出范围至全偏航角，并采用MAWE（平均角度包裹误差）作为评估指标，以解决360°角度环绕问题。用户可参考官方代码库，利用PyTorch框架和Adam优化器进行训练，并应用Albumentations库进行数据增强。

背景与挑战

背景概述

UET-Headpose数据集由越南河内国立大学工程技术学院（VNU UET）的AILab和SISLAB团队于2021年创建，旨在解决头部姿态估计领域中全范围偏航角（-179°至179°）数据匮乏的问题。现有数据集如300W-LP和BIWI仅覆盖有限角度范围，而CMU Panoptic数据集虽提供全范围角度，但其采集环境复杂、成本高昂且背景单一。该数据集通过引入基于绝对方向传感器（MCU-055）的低成本、易部署方案，结合俯视监控摄像头，在多种真实场景下采集了12,848张图像，涵盖9名受试者。其核心研究问题在于以经济高效的方式获取分布均匀的全范围头部姿态数据，为安防监控、人机交互等应用提供支持。该数据集已显著推动全范围头部姿态估计模型（如FSANet-Wide）的发展，在俯视图像场景中表现优异，成为该领域的重要基准。

当前挑战

UET-Headpose数据集面临多重挑战。在领域问题层面，头部姿态估计需解决从单张RGB图像中精确预测三维欧拉角（偏航、俯仰、滚转）的难题，尤其在偏航角超过±90°时，传统基于关键点的方法失效，且现有模型在大角度俯视场景下泛化能力不足。在构建过程中，挑战包括：1）传感器固定与校准，需设计可调节的3D打印面钩和耳挂以消除佩戴时的滑动与振动误差；2）数据同步，需通过MQTT协议以0.04秒间隔精确对齐传感器角度数据与摄像头帧，避免时间偏差；3）环境适应性，需在多种背景和光照条件下采集，以克服CMU Panoptic数据集背景单一的局限；4）成本控制，尽管总成本低于150美元，但需在传感器精度（100Hz采样）与硬件简易性之间取得平衡，确保数据质量。

常用场景

经典使用场景

UET-Headpose数据集专为俯视视角下的全范围头部姿态估计任务而设计，其经典使用场景在于利用低成本传感器与单目摄像头协同采集的俯拍图像，对头部偏航角在[-179°, 179°]区间内的连续姿态进行精确预测。该数据集弥补了现有数据集如300W-LP和BIWI仅覆盖有限角度范围（如偏航角±99°）的局限，特别适用于安防监控、人机交互等需要从顶部摄像头获取360°头部朝向信息的场景。研究者可基于该数据集训练模型，使其在俯视视角下对大角度偏转的头部姿态具备鲁棒识别能力。

实际应用

在实际应用中，UET-Headpose数据集主要用于提升安防监控系统中的人体行为分析能力。例如，在商场、银行等场所的顶部摄像头下，该数据集训练的模型可实时推断行人头部朝向，从而辅助判断其注意力焦点或潜在意图（如是否观察货架、是否与同伴交流）。此外，该数据集还可用于驾驶员监控系统，通过俯视车内摄像头捕捉驾驶员头部偏转角度，预警分心驾驶或疲劳状态。其低成本、易部署的特性使得这些应用能够快速落地于现有监控基础设施，无需更换昂贵设备。

衍生相关工作

基于UET-Headpose数据集，研究者衍生出多项经典工作。其中最突出的是论文中提出的FSANet-Wide模型，该模型在轻量级FSANet架构基础上改进SSR模块与融合机制，将输出范围扩展至全偏航角[-179°, 179°]，在UET-Headpose验证集上实现了9.3的MAWE，显著优于仅在300W-LP或CMU数据集上训练的模型。此外，该数据集还激发了关于低成本传感器与单目摄像头协同标注方法的后续研究，推动了头部姿态估计领域向更经济、更实用的方向演进，为学术界提供了可复现的基线基准与数据采集范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集