Gaze4HRI
收藏arXiv2026-05-06 更新2026-05-08 收录
下载链接:
https://gazeforhri.github.io
下载链接
链接失效反馈官方服务:
资源简介:
Gaze4HRI是由中东技术大学机器人中心构建的大规模视线估计基准数据集,包含52名受试者在人机交互场景下的3,258个视频(约620,933帧)。数据通过机器人腕部摄像头与动作捕捉系统同步采集,涵盖多种光照条件、头部-视线冲突及动态目标等关键变量。该数据集专为评估零样本视线估计方法的鲁棒性而设计,通过模拟共享注视和相互注视任务,填补了现有基准在动态人机交互环境中的空白,为机器人感知、AR/VR等领域的算法开发提供重要支撑。
提供机构:
中东技术大学·计算机工程与机器人中心
创建时间:
2026-05-06
原始信息汇总
数据集概述:Gaze4HRI
Gaze4HRI 是一个大规模、面向人机交互(HRI)场景的3D视线估计数据集,旨在零样本评估现有视线估计神经网络在HRI条件下的表现。该数据集由土耳其中东科技大学(METU)计算机工程系与ROMER团队的研究人员创建,相关论文发表于FG 2026。
核心规模
- 受试者:52人
- 视频数量:3,258个
- 总帧数:620,933帧
- 总时长:约5.7小时
数据集聚焦
采集设置与硬件
- RGB相机:Intel RealSense D435i,安装在UR5机械臂腕部(模拟机器人感知视角),采集分辨率为1920×1080,帧率为30 FPS。
- 动作捕捉:OptiTrack系统,采样率为100 Hz,用于精确的头部/眼部几何标定。
- 三维视线真值:基于校准后的瞳孔中点位置与已知注视目标位置计算,以相机坐标系下的视线向量形式提供。
- 评估方式:计算预测视线向量与真值视线向量之间的角度误差。
主要数据内容
| 数据文件(每个记录文件夹内) | 说明 |
|---|---|
rgb_video.mp4 |
同步的RGB视频 |
rgb_timestamps.npy |
帧时间戳 |
eye_positions.npy, target_positions.npy |
三维视线真值(视线向量由瞳孔中点指向目标) |
head_poses.npy, camera_poses.npy, camera_intrinsics.npy |
头部姿态、相机姿态与内参 |
ur5_joint_states.npy, ur5_base_pose.npy, table_pose.npy |
机器人状态与桌面几何 |
blink_annotations_by_*.npy |
眨眼标注(用于视线评估时遮挡或用于眨眼检测实验) |
任务覆盖
- 以物体为中心的注视:受试者注视共享桌面上的目标点。
- 相互注视:受试者追踪移动的机器人相机,模拟人与机器人的眼神交流。
实验模块
数据集围绕四种代表HRI典型挑战的实验设计:
- 照明变化(Exp. 1):在四种光照强度(
lighting_10,lighting_25,lighting_50,lighting_100)下测试模型鲁棒性。 - 相机视角变化(Exp. 2):机器人相机沿弧线围绕受试者移动,注视目标保持在桌面固定位置(
circular_movement)。 - 头部-视线冲突(Exp. 3):头部朝向固定,视线方向与之产生不同程度冲突(
head_pose_left,head_pose_middle,head_pose_right)。 - 移动目标/相互注视(Exp. 4):受试者追踪移动的机器人相机,模拟动态目标下的相互注视(
line_movement_slow,line_movement_fast)。
零样本基准测试结果
主要发现
- 最佳模型:基于ETH-X-Gaze训练的PureGaze在大多数HRI条件下表现最稳定。
- 训练数据影响:基于ETH-X-Gaze训练的模型在照明变化、视角变化和头部-视线冲突等条件下表现尤为鲁棒。
- 开放性失败案例:所有模型在处理陡峭向下凝视时表现不佳,这对桌面HRI场景至关重要。
各实验平均角度误差(°,越低越好)
| 模型 | 照明 (Exp.1) | 相机视角 (Exp.2) | 头部-视线冲突 (Exp.3) | 相互注视 (Exp.4.2) |
|---|---|---|---|---|
| PureGaze (E) | 11.4 | 11.1 | 7.3 | 5.3 |
| GazeTR (E) | 11.7 | 14.4 | 8.7 | 10.4 |
| PureGaze (G) | 16.1 | 18.5 | 11.4 | 9.5 |
| GazeTR (G) | 15.3 | 17.8 | 12.9 | 7.4 |
| L2CS-Net (G) | 18.8 | 18.1 | 16.6 | 15.4 |
| MCGaze (G) | 15.2 | 15.6 | 20.2 | 23.3 |
| GaT (G) | 16.7 | 16.1 | 12.1 | 16.4 |
(注:表中 (E) 表示基于ETH-X-Gaze训练,(G) 表示基于Gaze360训练。)
关键实验详情
- 照明 (Exp. 1):PureGaze (E) 与 GazeTR (E) 在所有光照水平下表现稳定,而Gaze360训练的方法对光照更敏感。各模型在不同光照强度下的平均误差及变异系数(CV%)在数据集页面中有详细表格。
- 相机视角 (Exp. 2):PureGaze (E) 在相机移动场景中表现最强,与固定相机设置相比误差增幅很小。
- 头部-视线冲突 (Exp. 3):PureGaze (E) 误差最低;Gaze360训练的方法(尤其是MCGaze)随着冲突增加误差显著增大。
- 以物体为中心的注视 (Exp. 4.1):当注视目标靠近受试者(即视线更陡峭向下)时,所有模型误差增加。距受试者最远的目标行最容易,最近的行最难。PureGaze (E) 在多数目标点上表现最佳。
- 相互注视 (Exp. 4.2):PureGaze (E) 在动态目标下最准确;PureGaze与GazeTR架构对俯仰-偏航偏心模式的鲁棒性优于其他模型。
引用
@inproceedings{sezer2026gaze4hri, title={Gaze4HRI: Zero-shot Benchmarking Gaze Estimation Neural-Networks for Human-Robot Interaction}, author={Sezer, Berk and Küçük, Ali Görkem and Şahin, Erol and Kalkan, Sinan}, booktitle={2026 International Conference on Automatic Face and Gesture Recognition (FG)}, year={2026}, doi={10.5281/zenodo.19710372} }
搜集汇总
数据集介绍

构建方式
在人机交互领域中,精准的视线估计对于实现互视与共享注意等行为至关重要。然而,现有基准往往忽略了动态摄像机视角与运动目标等核心HRI条件。为此,Gaze4HRI数据集应运而生。该数据集依托UR5机器人手臂,在其腕部搭载Intel RealSense D435i摄像头,并利用OptiTrack运动捕捉系统以100Hz频率追踪受试者头部姿态。通过机器人运动学模型精确控制相机位姿,结合预实验的头-眼标定,将瞳孔间中点至注视目标的矢量作为真实视线标签。研究招募了52名受试者,采集了超过3000段视频、总计62万帧图像,全面覆盖了光照变化、头部-视线冲突、相机与目标运动等关键变量。
特点
Gaze4HRI数据集具备鲜明且系统的特性。首先,它在规模上超越了传统HRI相关数据集,涵盖50余名受试者与60万帧以上的高质量视频,且受试者年龄与眼镜佩戴情况分布均衡。其次,数据集围绕四种核心HRI变量精心设计:四种离散光照强度、机器人相机在水平60°弧线上的运动、三种固定头部姿态下的头部-视线冲突角度,以及基于桌面目标与机器人相机移动的注视方向变化。尤为独特的是,该数据集同时包含物体中心任务与互视任务,模拟了共享工作空间与机器人眼神交流的真实场景。此外,其真实标签通过OptiTrack系统获取,精度高达±0.5毫米,远优于依赖神经网络追踪的方法。
使用方法
Gaze4HRI主要用于零样本场景下视线估计神经网络的人机交互鲁棒性评估。使用者可直接下载公开的预训练模型权重与数据集,按照论文提供的配置方案——对于PureGaze与GazeTR架构采用矫正后的面部区域图像作为输入,对于L2CS-Net、MCGaze与GaT则使用YOLOv8检测后的裁剪人脸——进行推理。评估指标采用预测视线向量与运动捕捉系统提供的真实视线向量之间的角度误差。数据集按受试者维度组织,视频文件对应不同的实验条件,研究者可针对光照、视角、头部-视线冲突或注视方向等单一变量进行细粒度分析,亦可通过全数据集上的统计算法检验模型在HRI条件下的综合表现。代码与数据均可在项目官网获取。
背景与挑战
背景概述
在人机交互(HRI)领域,精确的注视方向估计是实现互惠凝视、共享注意力等关键社交行为的基础。然而,现有基于外观的3D注视估计模型在零样本部署于HRI场景时的可靠性尚未得到系统验证。为了弥补这一空白,来自中东技术大学计算机工程系与ROMER机器人中心的研究人员Berk Sezer、Ali Görkem Küçük、Erol Şahin和Sinan Kalkan于2025年提出了Gaze4HRI数据集。该数据集包含52名受试者、超过3000段视频和60万帧图像,专门针对HRI中的核心变量——光照变化、头部与注视方向冲突、动态摄像机视角及移动目标——进行了精细设计。作为首个面向HRI的零样本注视估计基准,Gaze4HRI不仅填补了跨数据集评估中复杂度不匹配的鸿沟,更通过系统性实验揭示了现有最先进方法的普遍失效模式,为领域内未来的研究方向提供了重要指引。
当前挑战
Gaze4HRI所应对的核心挑战在于,现有注视估计模型在HRI条件下的鲁棒性严重不足。具体而言,领域问题层面:1)光照变化导致基于Gaze360训练的模型性能显著波动,其误差系数(CV)高达17.15%,而基于ETH-X-Gaze训练的模型则保持稳定;2)头部-注视方向冲突使MCGaze等方法的误差斜率高达+0.99°/°冲突角,即每增加一度冲突角,误差便增加近一度;3)向下极陡注视成为所有方法的共同失效点,PureGaze在最近目标点上的误差从6.32°骤增至20.41°。数据集构建层面:1)需在实验室环境中同步控制光照等级(4级)、机器人臂运动轨迹及受试者头部姿态,以模拟真实HRI中的动态交互;2)依赖OptiTrack运动捕捉系统实现亚毫米级(±0.5mm)的注视真值标注,大幅提升了数据精度;3)需平衡52名受试者(含24名眼镜佩戴者)的跨性别、跨年龄分布,避免统计伪重复,确保实验结论的稳健性。
常用场景
经典使用场景
在人机交互(HRI)这一充满动态与不确定性的研究领域中,视线估计作为感知人类注意力与社交意图的核心技术,其零样本部署的鲁棒性始终是学界关注的焦点。Gaze4HRI数据集应运而生,旨在模拟机器人交互中的典型视线任务,如共同注视与相互凝视,为评估现有深度神经网络在复杂HRI环境下的泛化性能提供了系统性基准。其经典使用场景包括:在机器人搭载移动相机、光照条件变化、头部与视线方向冲突以及目标动态移动等挑战性设置下,衡量各类基于外观的视线估计模型的零样本表现,从而揭示模型在实际HRI任务中的真实能力与局限。
解决学术问题
Gaze4HRI数据集的提出,精准回应了当前学术研究中一个长期悬而未决的问题:现有基于外观的视线估计方法在真实人机交互环境中的零样本可靠性究竟如何。以往跨数据集的评估往往因复杂度不匹配而缺乏说服力——模型在多样化的训练集上表现优异,却在规模较小、变化有限的测试集上失准,难以反映真实的鲁棒性。该数据集通过系统操控光照强度、视角变化、头眼冲突以及目标运动等关键变量,揭示了即便最先进的方法也在至少一项条件下显著失败,尤其是陡峭向下视线成为了普遍的瓶颈。这一发现对近年来过度追求复杂时空建模与Transformer架构的研究趋势提出了有力质疑,强调了数据多样性,尤其是ETH-X-Gaze等涵盖广泛头姿与视线组合的训练集,才是零样本鲁棒性的首要驱动因素,从而为领域研究指明了更务实的方向。
衍生相关工作
Gaze4HRI的推出为视线估计领域催生了一系列富有启发性的后续工作。其核心发现——数据多样性的重要性远超复杂模型设计——推动了研究社区对训练数据构建策略的重新审视,催生了更多旨在扩展头姿与视线覆盖范围的高质量数据集。同时,数据集对Pureraze等去偏净化框架的验证,激发了在特征解耦与自对抗训练方向上的创新,使模型能更有效地剥离身份与光照干扰。此外,Gaze4HRI对时空模型与Transformer架构的批判性评估,促使学者在探索新结构时更加注重实证的零样本泛化验证,而非仅依赖单一基准的优越表现。该数据集还配备了同步的头姿与眨眼标注,为未来联合估计与鲁棒眨眼处理的研究提供了宝贵资源,进一步拓宽了人机交互中视线分析的学术边界。
以上内容由遇见数据集搜集并总结生成



