Gaze On Objects (GOO)

Name: Gaze On Objects (GOO)
Creator: 菲律宾大学
Published: 2021-06-22 11:00:55
License: 暂无描述

arXiv2021-06-22 更新2024-06-21 收录

下载链接：

https://github.com/upeee/GOO-GAZE2021

下载链接

链接失效反馈

官方服务：

资源简介：

Gaze On Objects (GOO)数据集是由菲律宾大学创建，专注于零售环境中的目光对象预测。该数据集包含201,552张图像，分为合成图像（GOO-Synth）和真实图像（GOO-Real）两部分。数据集的创建过程涉及在Unreal Engine中模拟真实场景，并使用多种虚拟人物模型进行注视行为模拟。GOO数据集不仅包含传统的目光点标注，还提供了对象的边界框、类别和分割掩码，适用于目光跟踪和对象检测等任务，特别是在零售环境中，有助于市场研究和客户行为分析。

The Gaze On Objects (GOO) dataset was developed by the University of the Philippines, focusing on gaze-based object prediction in retail environments. This dataset contains 201,552 images, which are divided into two subsets: synthetic images (GOO-Synth) and real-world images (GOO-Real). The dataset creation process involves simulating realistic retail scenarios in Unreal Engine and using multiple virtual human models to replicate natural gaze behaviors. In addition to standard gaze point annotations, the GOO dataset also provides object bounding boxes, category labels, and segmentation masks, making it applicable for tasks including gaze tracking and object detection. Particularly in retail environments, this dataset facilitates market research and customer behavior analysis.

提供机构：

菲律宾大学

创建时间：

2021-05-23

搜集汇总

数据集介绍

构建方式

在零售环境视觉感知研究领域，GOO数据集的构建体现了合成与真实数据融合的前沿策略。该数据集主要由大规模合成图像GOO-Synth与小规模真实图像GOO-Real构成。GOO-Synth通过Unreal Engine模拟零售场景，利用虚拟相机捕捉20种多样化人体模型与38,400种场景配置的交互，自动生成带有精确注视向量与物体标注的图像。GOO-Real则在搭建的模拟零售环境中，录制100名志愿者注视特定商品的视频，并依据预设清单提取图像，由多名标注员核对后添加边界框、类别及分割掩码标注。这种双轨构建方式既保障了数据规模与标注一致性，又为领域适应研究提供了基础。

使用方法

GOO数据集支持多种计算机视觉任务的模型训练与评估。对于注视跟随任务，研究者可利用头部位置和全图像作为输入，以注视物体中心作为真值点，训练模型预测注视点热图。在注视物体预测这一新颖任务上，数据集可直接用于训练端到端模型，使其能够同时回归出被注视物体的边界框与类别。此外，得益于其合成与真实数据的明确划分，该数据集非常适合用于领域适应研究，例如先在GOO-Synth上预训练模型，再在GOO-Real上进行少样本微调，以评估合成特征向真实场景的迁移能力。数据集中提供的全面标注也使其适用于辅助性的物体检测与实例分割任务。

背景与挑战

背景概述

凝视对象预测作为计算机视觉领域的前沿课题，旨在通过第三人称视角推断人类视线所聚焦的具体物体边界。菲律宾大学与三星菲律宾研发院于2021年联合发布的Gaze On Objects（GOO）数据集，正是针对零售场景中密集物体环境下的凝视对象预测任务而构建。该数据集包含20.1万张图像，其中合成数据（GOO-Synth）占主体，辅以少量真实场景数据（GOO-Real），不仅标注了视线落点与头部位置，更创新性地提供了场景中所有物体的边界框、类别及分割掩码标注。这一设计突破了传统凝视数据集（如GazeFollow）仅标注像素级视线点的局限，为探索视线与物体语义的关联机制提供了关键数据基础，推动了视觉注意力机制研究向具象化、场景化方向发展。

当前挑战

GOO数据集面临的挑战主要体现在任务定义与数据构建两个维度。在任务层面，凝视对象预测需同时解决视线方向估计与物体检测的双重难题，模型必须在密集排列的零售商品中精准区分视线目标与背景物体，这对特征融合与空间推理能力提出了极高要求。现有凝视预测模型虽在视线点回归任务中表现优异，却缺乏直接输出物体边界框与类别的能力，亟待开发兼顾凝视感知与物体识别的复合型架构。在数据构建层面，合成数据与真实数据间的域差异构成显著障碍：GOO-Synth虽能通过虚拟环境批量生成标注精准的数据，但其纹理、光照与物理特性与真实场景存在差距，导致模型在跨域泛化时易出现性能衰减。此外，零售场景中物体外观相似性高、空间分布密集，进一步增加了标注一致性保障与模型判别能力训练的复杂度。

常用场景

经典使用场景

在零售环境的人机交互研究中，GOO数据集为视线对象预测任务提供了关键支持。该数据集通过合成与真实图像相结合的方式，构建了密集货架场景下人类注视行为的标注资源，使得研究人员能够训练模型从第三人称视角精准识别被注视物体的边界框。其经典应用场景集中于视线跟随算法的性能评估，尤其在对象密集排列的零售环境中，模型需平衡视线方向推断与物体检测特征，以达成高精度的注视对象定位。

解决学术问题

GOO数据集主要解决了计算机视觉领域在视线估计中缺乏对象级标注的学术空白。传统数据集如GazeFollow仅标注注视点像素，难以直接关联到具体物体，而GOO通过提供物体边界框、类别及分割掩码的完整注释，推动了从注视点预测到注视对象预测的范式转变。这一进展不仅提升了模型在复杂场景下的鲁棒性，还为跨域适应研究提供了合成至真实场景的特征迁移基准，促进了视线理解系统的实用化发展。

实际应用

在实际应用层面，GOO数据集为零售行业的智能化升级提供了技术基础。基于该数据集训练的视线对象预测系统可部署于监控摄像头网络，实时分析顾客对商品的注视行为，从而优化货架布局、评估营销效果或提供个性化导购服务。此外，该系统还能辅助市场研究，通过量化消费者注意力分布，为商品陈列策略提供数据驱动的决策支持，显著提升零售环境的运营效率与用户体验。

数据集最近研究