Gaze4HRI

github2026-05-08 更新2026-05-10 收录

下载链接：

https://github.com/GazeForHRI/Gaze4HRI

下载链接

链接失效反馈

官方服务：

资源简介：

Gaze4HRI是一个用于人机交互中视线估计的大规模数据集，包含四种主要实验设置下的数据，每种设置下又有不同的实验类型。数据集以嵌套的目录结构组织，包含不同光照水平、头部姿势、运动目标等条件下的数据。

Gaze4HRI is a large-scale dataset for gaze estimation in human-robot interaction (HRI). It contains data under four primary experimental setups, with distinct experimental categories within each setup. The dataset is organized in a nested directory structure, and includes data collected under various conditions such as varying lighting levels, head poses, moving targets, and other relevant scenarios.

创建时间：

2026-04-20

原始信息汇总

数据集概述：Gaze4HRI

Gaze4HRI 是一个面向人机交互场景的大规模视线估计数据集，其相关论文已被 FG 2026（第20届IEEE国际自动人脸与姿态识别会议）接收。该数据集旨在为评估视线估计神经网络在零样本（Zero-shot）人机交互环境下的表现提供基准。

1. 数据集内容与结构

实验设置：数据集包含四种主要实验设置，并细分为十种实验类型：
- 光照设置：lighting_10, lighting_25, lighting_50, lighting_100（不同光照级别）。
- 摄像头视角设置：circular_movement（圆形运动）。
- 头部与视线冲突设置：head_pose_left, head_pose_middle, head_pose_right（不同头部姿态）。
- 运动目标（相互注视）设置：line_movement_slow, line_movement_fast（慢速/快速直线运动）。
原始文件结构：数据以嵌套目录结构组织，格式为：YYYY-MM-DD/SubjectName/exp_type/point/。其中，如果存在重录情况，每个point目录下会包含以时间戳命名的子目录，评估时会使用最新的时间戳子目录。

2. 技术框架与依赖

主仓库：该GitHub仓库是Gaze4HRI项目的主代码库，包含数据采集、数据集创建（HDF5格式）、视线/眨眼估计以及论文结果分析的相关脚本。
模型仓库：用于运行各视线估计模型的代码位于另一个独立的仓库 GazeModels（https://github.com/GazeForHRI/GazeModels/tree/main），每个模型对应一个分支。

3. 核心脚本与功能

代码库中的脚本按功能分为以下几类：

核心数据管理与工具：
- config.py：包含所有通用的辅助函数，用于数据采集和分析。
- data_loader.py：用于加载录制视频、头部姿态和视线真值数据的加载器。
- data_matcher.py：负责100Hz运动捕捉数据与30Hz图像数据的传感器融合与同步。
- flatten_dir.py：用于在原始数据嵌套结构之间进行数据导入/导出的关键脚本。
Gaze4HRI Torch数据集：
- 提供用于训练视线估计模型的PyTorch数据集类和相关脚本，输入为矫正后的图像。
- h5_dataset_creator.py：创建HDF5格式的数据集。
- data_rectification.py 和 unrectification.py：执行数据的矫正和逆矫正，以适配不同模型的需求。
Blink4HRI Torch数据集（眨眼检测）：
- 提供用于训练眨眼检测模型（基于BlinkLinMulT）的相关脚本。
- h5_blink4hri_creator.py 等：创建和拆分眨眼检测数据集。
- exordium_landmarks.py：用于生成面部/眼部裁剪区域和眼部长宽比（EAR）特征。
推断与评估：
- 视线估计：gaze_estimation.py 提供了用于测试任何视线模型的抽象类；gaze_estimation_batch.py 则是批量运行推断的脚本。
- 眨眼估计：blink_annotation.py 用于手动标注眨眼帧；blmt_train.py / blmt_test.py 用于在Blink4HRI数据集上训练和测试BlinkLinMulT模型。
分析与论文实验：
- data_analyzer_batch.py 和 structured_results.py：批量计算视线误差并聚合结果，生成 gaze_evaluation_results.csv。
- analyze_by_group.py：按模型、实验类型、目标点、性别等维度分析视线误差。
- 其他脚本：用于生成论文中具体实验的结果，如光照分析、摄像头视角分析、头部-视线冲突分析等。
数据采集与标定：
- data_collector.py：录制数据的主要脚本。
- head_eye_calibration.py 和 table_target_calibration.py：分别用于头部-眼睛标定和桌子到注视目标点的静态变换标定。

4. 引用信息

如果您在研究中使用了该数据集，请引用其论文：

bibtex @inproceedings{sezer2026gaze4hri, title={Gaze4HRI: Zero-shot Benchmarking Gaze Estimation Neural-Networks for Human-Robot Interaction}, author={Sezer, Berk and Küçük, Ali Görkem and Şahin, Erol and Kalkan, Sinan}, booktitle={2026 International Conference on Automatic Face and Gesture Recognition (FG)}, year={2026}, doi={10.5281/zenodo.19710372} }

论文可在 arXiv 上获取：https://arxiv.org/abs/2605.04770

搜集汇总

数据集介绍

构建方式

Gaze4HRI数据集由四位研究者在人机交互场景下系统地构建而成，涵盖了四种主要实验设置：光照变化、摄像头视角、头-眼冲突以及运动目标（相互注视）。每种设置下包含多个实验子类型，如照明强度梯度（10%、25%、50%、100%）、头部偏转角度（左、中、右）、圆形轨迹运动和线性慢/快运动。数据通过100Hz运动捕捉系统与30Hz图像传感器同步采集，并经过传感器融合与时间配准处理。原始数据采用嵌套目录结构组织，按日期、受试者、实验类型和目标点分层存储，确保了数据管理的条理性和可追溯性。

特点

该数据集的核心特点在于其大规模、多模态和人机交互场景的真实性，囊括了10种实验条件、多种照明等级和头部姿态，能够全面评估注视估计模型在不同交互情境下的泛化能力。数据集提供非矫正的原始注视向量作为真值，便于研究者直接对比不同模型输出。此外，数据集内置了Blink4HRI子集，支持眨眼检测任务的联合研究。借助精心设计的脚本套件，研究者可完成从数据加载、传感器同步、注视误差计算到分组统计的全流程分析，为公平比较多种注视估计神经网络提供了零样本基准测试的可能性。

使用方法

使用Gaze4HRI数据集时，研究者可利用提供的Python脚本流水线进行标准化评估。首先通过原始数据结构和`GazeDataLoader`加载视频、头部姿态与注视真值，随后在`GazeModels`仓库的对应分支上运行目标注视估计模型进行推理，并通过`flatten_dir.py`在跨机器之间导入导出结果。针对输出矫正注视向量的模型，需使用`unrectification.py`进行逆数据矫正以匹配原始格式。接着借助`data_analyzer_batch.py`和`structured_results.py`计算并汇总各视频的角注视误差，最后通过`analyze_by_group.py`和各实验专用分析脚本（如`lighting_analysis.py`）生成论文级结果。研究者亦可利用HDF5格式的Torch数据集在Gaze4HRI上训练新模型，或使用Blink4HRI子集进行眨眼检测研究。

背景与挑战

背景概述

Gaze4HRI数据集由Berk Sezer、Ali Görkem Küçük、Erol Şahin和Sinan Kalkan等人于2026年创建，发表于第20届IEEE国际自动人脸与姿态识别会议（FG 2026）。该数据集聚焦于人机交互场景中的视线估计问题，旨在弥合现有视线估计模型在实验室理想环境与真实人机交互应用之间的鸿沟。研究团队通过精心设计的多维度实验设置，包括光照变化、头部姿态冲突、摄像机视角变化以及动态目标跟踪等场景，采集了包含丰富标注信息的大规模数据，为零样本评估各类视线估计神经网络在HRI场景下的泛化性能提供了重要的基准资源。该数据集对推动视线估计技术从受控环境走向真实人机交互应用具有显著的理论与实践价值。

当前挑战

Gaze4HRI数据集所解决的领域核心挑战在于：现有视线估计算法在理想实验室条件下表现出色，但在真实人机交互场景中面临光照剧烈变化、头部姿态与视线方向不一致、摄像机视角动态改变以及目标快速移动等多重干扰因素，导致模型泛化性能急剧下降。数据集构建过程中面临的挑战包括：需要同步100Hz动作捕捉系统与30Hz图像数据的高精度传感器融合，设计涵盖十种实验条件的复杂采集流程，保证不同受试者数据采集的一致性，以及对视线估计结果进行逆数据矫正以匹配原始非矫正空间坐标系。这些挑战共同构成了从算法研发到实际部署的有效评估屏障。

常用场景

经典使用场景

Gaze4HRI数据集专为人机交互（HRI）场景下的视线估计任务而设计，其经典使用场景涵盖多变量条件下的视线跟踪性能评估。该数据集通过系统化采集四种实验设置（光照强度、相机视角、头-眼冲突、动态目标）下的数据，为研究者提供了从受控实验室环境到近似自然交互场景的过渡性测试平台。具体而言，研究者可利用该数据集在零样本迁移学习的框架下，评估现有深度学习视线估计模型在不同光照等级、头部姿态变化、视线与头部朝向不一致以及目标运动状态下的泛化能力。其结构化的实验类型划分（如照明梯度、圆形轨迹运动等）使得对模型鲁棒性的细粒度分析成为可能。

衍生相关工作

围绕Gaze4HRI数据集已衍生出一系列具有影响力的研究工作。首先，该数据集本身即催生了零样本视线估计基准测试框架，相关论文发表在FG 2026会议上，为后续模型比较提供了标准化协议。其次，数据集配套的Blink4HRI子集支撑了眨眼检测模型BlinkLinMulT的训练与评估，该工作通过融合眼部特征与时间序列建模提升了动态闭眼事件的识别精度。此外，研究者基于该数据集开发了视线-头部冲突分析工具链，揭示了头部运动补偿机制对视线估计精度的干扰模式，这一发现已被后续用于设计解耦式视线编码器。数据集中提供的HDF5格式接口还简化了与ETH-X-Gaze等经典数据集的格式转换，促进了多数据集联合训练策略的研究。

数据集最近研究