Ego-IRGBench

Name: Ego-IRGBench
Creator: 香港理工大学电子与电气工程系
Published: 2025-04-02 16:24:35
License: 暂无描述

arXiv2025-04-02 更新2025-04-07 收录

下载链接：

https://yuggiehk.github.io/annexe/

下载链接

链接失效反馈

官方服务：

资源简介：

Ego-IRGBench数据集是由香港理工大学电子与电气工程系构建的大规模 annotated 数据集，包含超过20k的egocentric图像，以及关于交互的1.6M查询-答案-掩码对标签。该数据集基于HOI4D数据集，经过大量人工标注，旨在支持egocentric交互的全面理解。

The Ego-IRGBench dataset is a large-scale annotated dataset constructed by the Department of Electronic and Electrical Engineering of The Hong Kong Polytechnic University. It contains over 20,000 egocentric images, as well as 1.6 million query-answer-mask triplet labels related to interactions. Built upon the HOI4D dataset and extensively manually annotated, this dataset is designed to support comprehensive understanding of egocentric interactions.

提供机构：

香港理工大学电子与电气工程系

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

Ego-IRGBench数据集构建基于HOI4D数据集，通过多阶段半自动标注流程实现。首先由专家对RGB-D图像进行交互分类，区分有交互和无交互样本；随后半自动生成手部与交互对象的掩码；最后人工生成查询文本及对应响应，并自动生成像素级掩码。该数据集包含20,504对RGB-D图像，标注了160万条查询-响应-掩码三元组，形成系统化的多模态反馈体系。

使用方法

使用Ego-IRGBench需遵循其任务设计的三阶段流程：输入自我中心图像与文本查询后，模型需依次完成交互分析（生成自然语言描述）、问题解答（输出需分割对象说明）及像素定位（生成目标掩码）。数据集按5:2:3比例划分为训练/验证/测试集，评估指标涵盖METEOR、CIDEr（文本质量）和cIoU（掩码精度），支持端到端训练与多任务联合优化。

背景与挑战

背景概述

Ego-IRGBench数据集由香港理工大学电子与电子工程系的Yuejiao Su、Yi Wang等研究人员于2025年提出，旨在推动第一人称视角下的人机交互理解研究。该数据集基于HOI4D数据集构建，包含20,681张第一人称视角图像及160万条查询-回答-掩码三元组，首次实现了对自我中心交互的多模态统一解析。作为计算机视觉领域的重要突破，Ego-IRGBench通过整合文本描述、语义问答和像素级定位三大功能，为增强现实、具身智能等应用提供了关键数据支撑。其创新性体现在将传统分割任务（RIS）、交互检测（EHOI）和视觉问答（EgoVQA）统一为端到端的Egocentric Interaction Reasoning and Grounding（EGO-IRG）任务框架。

当前挑战

Ego-IRGBench面临的核心挑战体现在两个方面：在领域问题层面，需解决第一人称视角下严重遮挡和背景变化导致的交互对象识别困难，以及如何同步生成符合自然语言逻辑的文本描述与精确像素级掩码；在构建过程层面，数据集需处理大规模RGB-D数据对齐、多模态标注一致性维护等难题，特别是针对双手交互场景中相似物体的深度区分。此外，现有方法难以直接迁移外中心视角（TPV）算法至第一人称视角（FPV），迫使研究者开发新型的深度感知标注流程与半自动化标注工具，以应对1.6百万级查询-掩码对的标注复杂度。

常用场景

经典使用场景

Ego-IRGBench数据集在计算机视觉领域，特别是在自我中心视角（Egocentric View）的人机交互研究中具有重要应用。该数据集通过提供丰富的自我中心图像和对应的查询-回答-掩码对，支持研究者进行交互分析、问答和像素级定位任务。其经典使用场景包括自我中心视角下的手-物体交互检测、动作识别以及多模态交互理解。

解决学术问题

Ego-IRGBench数据集解决了自我中心视角交互理解中的多个关键学术问题。首先，它填补了现有数据集无法同时提供连贯文本和像素级响应的空白，使得研究者能够更全面地理解交互过程。其次，该数据集通过引入深度信息辅助像素级定位，有效解决了复杂背景下物体区分困难的问题。此外，其多样化的查询类型（单目标、多目标、无目标）为模型泛化能力评估提供了丰富场景。

实际应用

在实际应用层面，Ego-IRGBench数据集为增强现实（AR）、具身智能（Embodied AI）和工业辅助系统等场景提供了重要支持。例如，在AR应用中，该数据集可以帮助开发更精准的手-物体交互识别系统；在工业场景中，可用于训练能够理解工人操作意图的智能辅助系统。其提供的深度信息还能显著提升虚拟物体与真实场景的融合效果。

数据集最近研究