GazeHOI

Name: GazeHOI
Creator: 上海科技大学
Published: 2024-03-28 14:56:45
License: 暂无描述

arXiv2024-03-28 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2403.16169v3

下载链接

链接失效反馈

官方服务：

资源简介：

GazeHOI数据集由上海科技大学创建，专注于视线引导的手-物体交互研究。该数据集包含479个序列，每个序列平均时长19.1秒，涵盖812个子序列和33种不同大小的物体。数据集通过同步的3D建模捕捉视线、手部和物体交互，适用于研究复杂的人机交互和认知过程。创建过程中，使用了高精度的3D扫描和跟踪技术确保数据的准确性和自然性。GazeHOI数据集的应用领域包括虚拟现实、增强现实和机器人交互，旨在通过视线分析提高交互的自然性和效率。

The GazeHOI dataset, developed by ShanghaiTech University, focuses on gaze-guided hand-object interaction research. It contains 479 sequences with an average duration of 19.1 seconds per sequence, encompassing 812 sub-sequences and 33 objects of varying sizes. The dataset captures gaze, hand and object interactions through synchronized 3D scanning and tracking technologies, making it applicable to studies of complex human-computer interactions and cognitive processes. High-precision 3D scanning and tracking techniques were employed during its creation to ensure the accuracy and naturalness of the data. Application areas of the GazeHOI dataset include virtual reality (VR), augmented reality (AR) and robotic interaction, with the objective of improving the naturality and efficiency of human-computer interaction via gaze analysis.

提供机构：

上海科技大学

创建时间：

2024-03-24

搜集汇总

数据集介绍

构建方式

在视觉认知与人机交互领域，精确捕捉人类注意力与意图的关联性至关重要。GazeHOI数据集通过多模态同步采集系统构建，招募10名志愿者执行包括棋类游戏、家具组装等多样化任务。利用12台同步Z-CAM相机获取多视角视频，结合MediaPipe提取二维手部关键点并通过三角测量转换为三维坐标，进而优化得到MANO参数。物体位姿通过OptiTrack追踪附着于33个刚性物体表面的反射标记获得，同时使用眼动仪记录以自我为中心的二维注视点，并借助深度相机校正为三维注视方向。数据标注过程包含手部姿态的生理合理性约束、物体几何的ICP配准以及注视数据的去噪平滑，最终形成包含479个序列、812个子序列的丰富交互样本。

特点

GazeHOI作为首个同步建模注视、手部与物体三维交互的数据集，填补了精细人机交互研究的数据空白。其核心特点在于实现了注视行为与手物互动的时空对齐，涵盖从单手操作到复杂双手协作的33种不同尺寸物体交互任务。数据集平均序列时长达19.1秒，每个序列包含2-4个物体，特别包含51组装配任务，呈现了从物体重定位到杂乱环境目标选择等多样化场景。相较于现有手物交互数据集，GazeHOI不仅提供多视角图像与精确三维标注，更通过注视轨迹揭示了人类意图与动作执行的认知关联，为虚拟现实、机器人协作等应用提供了前所未有的细粒度研究基础。

使用方法

该数据集支持注视引导的手物交互合成新任务，研究者可基于初始手部姿态、物体位姿及注视序列生成符合人类意图的连续交互动作。使用流程分为三个阶段：在预扩散阶段，通过点云空间特征提取与注视-接触一致性计算，将注视条件解耦为时空特征与目标姿态条件；扩散阶段采用堆叠式GHO-Diffusion模型，先基于注视条件生成物体运动序列，再根据物体运动合成手部运动，其中引入球面高斯约束优化去噪过程；后扩散阶段则利用接触一致性优化生成的手部运动。数据集已划分为682个训练序列与130个测试序列，评估指标涵盖运动一致性误差、目标对齐精度及接触物理合理性等多维度度量。

背景与挑战

背景概述

在计算机视觉与人机交互领域，理解人类行为意图一直是核心研究议题。凝视作为揭示人类注意力与意图的关键行为信号，其与手部-物体交互的动态关联，对于提升动作预测的准确性与交互的自然度具有深远意义。GazeHOI数据集由上海科技大学的研究团队于2024年提出，旨在填补现有数据资源在同步捕捉凝视、手部及物体三维运动关系方面的空白。该数据集包含479个序列，平均时长19.1秒，涉及33种不同尺寸的物体，为核心研究问题——凝视引导的手-物体交互合成——提供了首个基准。其构建不仅深化了对细粒度人类活动逻辑的理解，也为虚拟现实、增强现实及人机交互等应用场景奠定了关键数据基础。

当前挑战

GazeHOI数据集致力于解决凝视引导的手-物体交互合成这一新兴任务，其领域挑战在于如何从凝视信号中提取丰富的时空先验，以生成自然且符合物理约束的手部与物体运动序列。具体而言，现有方法往往忽视凝视与精细手部动作的一致性，导致合成运动在接触点对齐和运动连贯性上存在偏差。在构建过程中，研究团队面临多重技术挑战：同步获取高精度凝视、手部关键点及物体6D位姿的数据采集难题；在复杂多物体交互场景下，确保数据标注的准确性与一致性；以及从噪声凝视数据中有效滤除干扰、提取可信意图信息的后处理挑战。这些挑战共同凸显了构建高质量多模态交互数据集的复杂性。

常用场景

经典使用场景

在视觉认知与人机交互领域，理解人类意图与精细动作之间的关联一直是核心挑战。GazeHOI数据集通过同步采集视线、手部与物体的三维运动数据，为视线引导的手-物交互合成任务提供了首个基准。该数据集最经典的应用场景在于训练和评估生成模型，使其能够根据连续的视线输入，预测并合成符合人类意图的、自然连贯的手部抓取与物体操控序列。研究者利用其丰富的多模态标注，能够深入探究视线在动作规划和执行中的引导机制。

实际应用

GazeHOI数据集的实际应用前景广阔，尤其在需要自然、高效人机协作的场景中。在虚拟现实与增强现实领域，基于视线引导的交互合成技术能够实现更沉浸、更直觉的操控体验，例如用户仅通过注视即可在VR环境中下棋或组装虚拟物件。在机器人技术中，该数据集支撑的算法能赋予机器人通过解读人类视线来预判其操作意图的能力，从而实现主动、安全的协作，例如在工业装配线上提前递送工具，或在服务场景中避免危险动作。这为实现无需显式指令的下一代隐式人机交互范式提供了关键技术支撑。

衍生相关工作

GazeHOI数据集的发布催生并衔接了多个相关领域的经典工作。其方法论继承并拓展了GIMO等从视线预测人体运动的工作，将研究粒度从全身运动细化到手-物交互层面。数据集构建中融合的MANO手部参数化模型、OptiTrack物体位姿跟踪以及视线数据处理流程，为后续多模态数据采集设立了参考标准。基于该数据集提出的GHO-Diffusion分层生成框架，创新性地引入了球形高斯约束等引导技术，推动了条件扩散模型在精细运动合成中的应用。这些工作共同构成了从视线理解到具身交互执行这一研究链条上的重要节点。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集