ETH-XGaze
收藏arXiv2020-07-31 更新2024-06-21 收录
下载链接:
https://ait.ethz.ch/projects/2020/ETH-XGaze
下载链接
链接失效反馈官方服务:
资源简介:
ETH-XGaze是一个大规模的注视估计数据集,由苏黎世联邦理工学院计算机科学系创建,包含超过一百万张高分辨率图像,涵盖极端头部姿态和注视变化。数据集通过定制硬件设置从110名参与者中收集,包括18个数字单反相机和可调节照明条件,以及一个校准系统来记录地面实况注视目标。该数据集旨在显著提高注视估计方法在不同头部姿态和注视角度的鲁棒性,并定义了标准化的实验协议和评估指标,以统一未来的注视估计研究。ETH-XGaze的应用领域广泛,从认知科学和人类计算机交互到机器人学和半自动驾驶,旨在解决在更广泛的环境条件下准确估计人类注视的问题。
ETH-XGaze is a large-scale gaze estimation dataset created by the Department of Computer Science at ETH Zurich. It contains over one million high-resolution images covering extreme head poses and gaze variations. The dataset was collected from 110 participants using a custom hardware setup, which includes 18 digital SLR cameras, adjustable lighting conditions, and a calibration system for recording ground-truth gaze targets. This dataset aims to significantly improve the robustness of gaze estimation methods across diverse head poses and gaze angles, and it defines standardized experimental protocols and evaluation metrics to unify future gaze estimation research. ETH-XGaze has broad application scenarios spanning cognitive science, human-computer interaction, robotics, and semi-autonomous driving, with the core goal of addressing the challenge of accurately estimating human gaze under a wider range of environmental conditions.
提供机构:
苏黎世联邦理工学院计算机科学系
创建时间:
2020-07-31
搜集汇总
数据集介绍

构建方式
ETH-XGaze数据集通过精心设计的硬件设备和采集流程构建,涵盖了极端头部姿态和视线变化的广泛范围。该数据集由110名参与者在定制的采集环境中生成,使用18台高分辨率数码单反相机和可调节的照明条件,确保了图像质量和视线目标的精确记录。每个参与者在不同照明条件下采集了超过500个视线方向,总计超过100万张标注样本,确保了数据集的多样性和丰富性。
特点
ETH-XGaze数据集的主要特点在于其极端头部姿态和视线方向的广泛覆盖,最大头部姿态范围达到±70°,视线方向范围达到±50°。此外,数据集提供了高分辨率图像(6000×4000像素),特别是在眼周区域的高效分辨率,为视线估计提供了高质量的视觉信息。数据集还包括多样化的参与者特征,如不同种族、年龄和性别,以及佩戴眼镜的情况,增强了数据集的实用性和代表性。
使用方法
ETH-XGaze数据集适用于开发和评估视线估计方法,特别是在极端头部姿态和视线变化条件下的鲁棒性。研究者可以使用该数据集进行模型训练和测试,通过标准化的实验协议和评估指标,确保不同方法之间的公平比较。数据集还提供了在线评估系统和公开排行榜,方便研究者提交和比较视线估计结果。此外,数据集的高分辨率图像和多样化的照明条件也为视线估计方法的进一步优化提供了丰富的资源。
背景与挑战
背景概述
在计算机视觉、人机交互和机器人技术领域,视线估计是一项基础任务,广泛应用于认知科学、人机交互、机器人和半自动驾驶等领域。ETH-XGaze数据集由苏黎世联邦理工学院(ETH Zurich)的研究团队于2020年创建,主要研究人员包括Xucong Zhang、Seonwook Park、Thabo Beeler等。该数据集的核心研究问题是解决现有视线估计数据集在头部姿态和视线变化方面的局限性,通过收集超过一百万张高分辨率图像,涵盖极端头部姿态和视线变化,以提升视线估计方法的鲁棒性。ETH-XGaze的推出,为视线估计研究提供了更为全面和标准化的实验平台,推动了该领域的发展。
当前挑战
ETH-XGaze数据集在构建过程中面临多项挑战。首先,视线估计领域的现有数据集通常局限于正面设置,覆盖的头部姿态和视线方向范围较窄,难以满足复杂环境下的应用需求。其次,数据集的构建需要克服极端头部姿态和视线变化带来的采集难度,确保高质量的图像和准确的视线标签。此外,为了实现公平和系统的比较,ETH-XGaze还提出了标准化的实验协议和评估指标,这在视线估计领域尚属首次,为未来的研究提供了统一的基准。然而,如何确保这些标准化的评估方法能够准确反映视线估计方法的性能,仍是一个需要持续探索的问题。
常用场景
经典使用场景
ETH-XGaze数据集在计算机视觉和人类计算机交互领域中,被广泛用于极端头部姿态和视线变化情况下的视线估计任务。其经典使用场景包括开发能够在不同视角和光照条件下准确估计视线方向的算法,特别是在智能家电、自动驾驶和机器人等新兴计算范式中,这些应用需要在不直接交互的情况下理解人类的注意力和意图。
实际应用
在实际应用中,ETH-XGaze数据集支持开发能够在复杂环境中工作的视线估计系统,如智能家居中的注意力监测、自动驾驶中的驾驶员状态监控以及机器人与人类的自然交互。这些应用场景要求视线估计系统能够在多种头部姿态和视线变化下保持高精度,ETH-XGaze为此提供了丰富的训练和测试数据。
衍生相关工作
基于ETH-XGaze数据集,研究者们开发了多种视线估计算法,包括利用生成对抗网络(GANs)进行视线重定向、基于贝叶斯网络的视线估计以及多区域卷积神经网络(CNNs)等。此外,该数据集还激发了在眼区生成建模、计算机图形学和面部重建等邻近领域的研究,推动了视线估计技术的多维度发展。
以上内容由遇见数据集搜集并总结生成



