EgoHOS

Name: EgoHOS
Creator: 宾夕法尼亚大学
Published: 2022-08-08 05:43:40
License: 暂无描述

arXiv2022-08-08 更新2024-06-21 收录

下载链接：

https://github.com/owenzlz/EgoHOS

下载链接

链接失效反馈

官方服务：

资源简介：

EgoHOS数据集由宾夕法尼亚大学创建，包含11,243张第一人称视角的图像，每张图像都有精细的手部和交互对象的像素级分割标签。该数据集涵盖了多种日常活动，从近1000个视频中抽样得到，包括Ego4D、EPIC-KITCHEN、THU-READ等。数据集的创建过程中，研究团队采用了上下文感知合成数据增强技术，以适应分布外的YouTube第一人称视频。EgoHOS数据集的应用领域广泛，包括手部状态分类、视频活动识别、手部-对象交互的3D网格重建以及第一人称视频中的手部透明化等，旨在解决复杂场景下的手部和对象交互理解问题。

The EgoHOS dataset was developed by the University of Pennsylvania. It comprises 11,243 first-person images, each paired with fine-grained pixel-level segmentation labels for hands and their interacting objects. Covering diverse daily activities, the dataset is sampled from nearly 1,000 videos sourced from existing datasets including Ego4D, EPIC-KITCHEN, THU-READ, and others. During its construction, the research team adopted context-aware synthetic data augmentation techniques to adapt to out-of-distribution YouTube first-person videos. The EgoHOS dataset has broad application scenarios, such as hand state classification, video activity recognition, 3D mesh reconstruction of hand-object interactions, and hand transparency in first-person videos, among others, aiming to address the challenge of understanding hand and object interactions in complex real-world scenes.

提供机构：

宾夕法尼亚大学

创建时间：

2022-08-08

搜集汇总

数据集介绍

构建方式

在构建EgoHOS数据集时，研究者从多个公开的自我中心视频源中稀疏采样，包括Ego4D、EPIC-KITCHEN、THU-READ以及自采集的GoPro视频，总计从近千个视频中选取了11,243帧图像。为确保数据的多样性与代表性，他们手动筛选了包含丰富手-物交互的帧，并进行了像素级标注。标注内容涵盖左手、右手、以及被左右手或双手交互的物体，并区分了直接接触与间接接触。此外，为评估模型在真实场景中的泛化能力，还从YouTube视频中额外标注了500帧作为分布外测试集。

特点

EgoHOS数据集的核心特点在于其精细的标注粒度与场景多样性。作为首个标注手-物接触边界的自我中心数据集，它提供了像素级的手部与交互物体分割掩码，并明确区分左右手及交互类型。数据覆盖了300多种日常活动与超过100名参与者，场景涵盖室内外多种环境，突破了以往数据集中在实验室环境的局限。其标注体系不仅支持手部分割，还首次实现了对交互物体的密集分割，为理解细粒度手-物交互提供了坚实基础。

使用方法

该数据集主要用于训练与评估细粒度的自我中心手-物分割模型。研究者提出了一种序列解码架构，先预测手部掩码，再结合接触边界信息指导物体分割。通过引入上下文感知的组合数据增强技术，将手-物对合成到语义一致的背景中，有效提升了模型在分布外场景的泛化能力。分割结果可直接应用于下游任务，如手部状态分类、活动识别、手-物三维网格重建及视频修复。用户可通过加载标注掩码训练分割网络，或利用预训练模型提取手-物掩码以增强各类视觉应用。

背景与挑战

背景概述

在计算机视觉领域，第一人称视角视频为高保真建模人类行为提供了细粒度信息。宾夕法尼亚大学与丰田研究院的研究团队于2022年推出了EgoHOS数据集，旨在解决精细化的自我中心手-物分割问题。该数据集包含11,243张图像，首次标注了手与交互物体之间的接触边界，并整合了Ego4D、EPIC-KITCHENS等多个来源的多样化日常活动场景。其核心研究问题聚焦于提升模型在复杂真实环境中的泛化能力，为手部状态分类、三维网格重建等下游任务奠定了坚实基础，显著推动了自我中心视觉理解的发展。

当前挑战

EgoHOS数据集致力于解决自我中心视角下精细手-物分割的挑战，其核心在于准确区分手部与交互物体的像素级边界，尤其在接触区域实现精准分离。构建过程中的主要挑战包括：数据采集需涵盖光照、背景、物体类型的巨大差异以确保多样性；标注工作需处理手-物接触边界的模糊性与复杂性，这对标注精度提出了极高要求；此外，模型需克服真实场景中的遮挡、运动模糊及未知物体交互等难题，以实现稳定的跨域泛化性能。

常用场景

经典使用场景

在计算机视觉领域，第一人称视角视频为人类行为建模提供了前所未有的精细信息。EgoHOS数据集的核心应用场景在于训练和评估细粒度的手-物交互分割模型，该模型能够从复杂的日常活动场景中精确分割出观察者的双手及与之交互的物体轮廓。通过提供超过一万张带有像素级标注的图像，该数据集成为开发鲁棒性分割算法的关键基准，尤其适用于处理光照多变、背景杂乱的真实世界场景，推动了模型从受控实验室环境向开放域应用的泛化能力。

解决学术问题

该数据集有效解决了以往研究在细粒度手-物交互理解上的若干瓶颈。传统数据集多局限于实验室环境或仅提供边界框标注，难以支撑像素级交互分析。EgoHOS通过引入密集接触边界标注，首次显式建模了手与物体间的物理接触关系，为理解交互意图提供了结构化线索。其涵盖的数百种日常活动与多样场景，显著缓解了模型因数据分布单一而导致的过拟合问题，为手部状态分类、活动识别等高层语义任务奠定了可靠的感知基础。

衍生相关工作

基于EgoHOS数据集及其提出的接触边界概念，衍生出一系列聚焦于提升交互理解的研究工作。在三维重建方向，后续研究将分割结果作为优化约束，显著提升了手-物联合网格重建的精度与泛化能力。在活动识别领域，利用分割掩码作为额外输入特征，成为提升动词-名词预测性能的有效范式。此外，其上下文感知的数据增强策略启发了更多针对长尾分布和域适应问题的合成数据生成方法，推动了弱监督与自监督学习在交互分割任务中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集