Ego-HOIBench

Name: Ego-HOIBench
Creator: 香港理工大学电子与电气工程系
Published: 2025-06-17 13:03:42
License: 暂无描述

arXiv2025-06-17 更新2025-06-22 收录

下载链接：

https://dengkunyuan.github.io/EgoHOIBench/

下载链接

链接失效反馈

官方服务：

资源简介：

Ego-HOIBench是一个新的数据集，旨在促进Ego-HOI检测的基准和开发。该数据集包含超过27K个高质量的 egocentric 图像，具有123个细粒度的手-动词-对象三元组注释，覆盖了日常生活活动中的丰富场景、对象类型和手部配置。此外，该数据集还定义了两种Ego-HOIBench挑战，以探索Ego-HOI检测任务。为了建立一个新的基线，我们提出了一个轻量级且有效的交互增强方案，即HGIR，该方案利用手部姿态和几何线索来从全局角度改善交互表示。我们的方法可以灵活地与现成的HOI检测器集成，无需额外的手部姿态估计器，即可实现出色的效率。实验结果表明，我们的方法在Ego-HOIBench上取得了显著的性能提升。

Ego-HOIBench is a novel dataset designed to facilitate benchmarking and development of Ego-HOI detection. This dataset contains over 27,000 high-quality egocentric images, with annotations covering 123 fine-grained hand-verb-object triplet categories, and encompasses diverse scenarios, object types and hand configurations across daily life activities. Additionally, this dataset defines two Ego-HOIBench-specific challenges to advance the exploration of the Ego-HOI detection task. To establish a new baseline, we propose a lightweight yet effective interaction enhancement scheme named HGIR, which leverages hand pose and geometric cues to enhance interaction representations from a holistic perspective. Our method can be flexibly integrated with off-the-shelf HOI detectors without requiring additional hand pose estimators, delivering excellent computational efficiency. Experimental results demonstrate that our method achieves significant performance improvements on the Ego-HOIBench dataset.

提供机构：

香港理工大学电子与电气工程系

创建时间：

2025-06-17

搜集汇总

数据集介绍

构建方式

Ego-HOIBench数据集的构建过程基于HOI4D数据集中的RGB-D视频序列，通过提取动作片段的中间帧并关联相应的对象类别，生成高质量的<人手、动词、对象>三元组标注。具体步骤包括：从每个动作片段中提取中间帧，将掩码区域与对象类别关联，过滤非活跃对象，合并同一对象的不同组件，并将掩码区域转换为边界框。随后，通过人工专家双重检查确保标注的准确性。数据集最终包含27,575张RGB-D图像，分辨率为1920×1080，涵盖22个名词类别和18个动词类别，标注了58.4K个边界框。

使用方法

Ego-HOIBench数据集的使用方法包括两个主要任务：实例级Ego-HOI检测和图像级Ego-HOI检测。实例级任务要求模型定位和分类单个交互实例，包括手部、动词和对象的类别及边界框。图像级任务则要求模型推断每帧中的主要交互，并识别所有参与的手部和对象。数据集还支持通过提出的Hand Geometry and Interactivity Refinement (HGIR)方案，利用手部姿态和几何信息增强交互表示，从而提升检测性能。

背景与挑战

背景概述

Ego-HOIBench是由香港理工大学的Kunyuan Deng、Yi Wang和Lap-Pui Chau等人于2025年提出的首个以自我中心视角（egocentric view）为核心的人类-物体交互（Human-Object Interaction, HOI）检测基准数据集。该数据集包含超过27,000张高质量标注的自我中心图像，涵盖123种细粒度的手-动词-物体三元组类别，覆盖日常活动中的多样化场景、物体类型和手部配置。Ego-HOIBench的提出填补了自我中心视角下HOI检测研究的空白，为计算机视觉领域中的高级场景理解任务提供了重要支持。该数据集不仅推动了自我中心交互检测技术的发展，还为混合现实、具身智能等下游应用提供了关键数据基础。

当前挑战

Ego-HOIBench面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，自我中心视角下的HOI检测面临严重的手-物体遮挡问题，狭窄的视野导致交互信息丢失，传统基于第三人称视角的HOI检测方法难以直接适用。此外，单双手交互的复杂性以及细粒度动作识别也是重要挑战。在构建过程中，数据标注面临高质量手-动词-物体三元组标注的困难，需要精确标注边界框和交互关系；同时，数据多样性要求覆盖刚性物体和铰接物体、单双手操作等多种交互场景，增加了数据收集和整理的复杂度。此外，从RGB-D视频中提取有效帧并确保标注准确性也是构建过程中的主要挑战。

常用场景

经典使用场景

Ego-HOIBench数据集在计算机视觉领域，特别是第一人称视角下的人-物交互检测研究中具有重要应用。该数据集通过提供高质量的手-动词-物体三元组标注，为研究者提供了一个丰富的实验平台。在经典使用场景中，研究者可以利用该数据集训练和评估各种人-物交互检测模型，特别是在处理手部遮挡和复杂交互场景时表现出色。

解决学术问题

Ego-HOIBench数据集解决了第一人称视角下人-物交互检测领域的数据稀缺问题。通过提供27,575张图像和123种细粒度交互类别的标注，该数据集填补了现有数据在交互多样性和手部配置方面的不足。其意义在于推动了遮挡场景下的交互识别研究，并为基于几何特征和姿态信息的交互表示学习提供了新的基准。

实际应用

在实际应用场景中，Ego-HOIBench数据集可广泛应用于增强现实、智能辅助系统和机器人操作等领域。例如，在智能眼镜应用中，该数据集支持开发能够理解用户手部动作的交互系统；在工业场景中，其丰富的标注数据有助于训练精确的装配指导算法。数据集对双手协作和单手操作的区分特别适用于需要精细动作识别的任务。

数据集最近研究