EgoMask

Name: EgoMask
Creator: 香港中文大学
Published: 2025-08-01 18:53:27
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://github.com/LaVi-Lab/EgoMask

下载链接

链接失效反馈

官方服务：

资源简介：

EgoMask是一个针对第一人称视角视频的像素级时空定位基准数据集，旨在促进增强现实和机器人等领域的应用。该数据集包含315个视频，涵盖了短期、中期和长期视频，并提供了700个查询，以便进行全面的评估。此外，还创建了EgoMask-Train，这是一个大规模的训练数据集，包含2,624个视频，用于支持模型开发。通过实验表明，现有的时空定位模型在EgoMask基准上表现不佳，但在EgoMask-Train上进行微调后，性能有了显著提高，同时保持了在非第一人称视角数据集上的性能。因此，EgoMask数据集为推动第一人称视角视频理解提供了重要的资源和见解。

EgoMask is a pixel-level spatio-temporal localization benchmark dataset for first-person view videos, intended to advance applications in domains such as augmented reality and robotics. This dataset comprises 315 videos covering short-, medium-, and long-duration clips, and provides 700 queries to support comprehensive evaluation. Furthermore, EgoMask-Train, a large-scale training dataset containing 2,624 videos, was constructed to facilitate model development. Experimental results demonstrate that existing spatio-temporal localization models perform poorly on the EgoMask benchmark, but their performance improves significantly after fine-tuning on EgoMask-Train while maintaining their performance on non-first-person view datasets. Consequently, the EgoMask dataset provides valuable resources and insights for advancing first-person video understanding.

提供机构：

香港中文大学

创建时间：

2025-08-01

原始信息汇总

EgoMask数据集概述

数据集简介

名称: EgoMask
类型: 像素级基准数据集
领域: 第一人称视角(egocentric)视频的细粒度时空定位
主要贡献:
- 首个针对第一人称视角视频的像素级细粒度时空定位基准
- 提供大规模训练数据集EgoMask-Train

数据集特点

挑战性特征:
- 更短的对象持续时间
- 更稀疏的对象轨迹
- 更小的对象尺寸
- 更大的位置偏移

数据集组成

EgoMask基准数据集:
- 包含详细注释
- 可从Hugging Face获取: https://huggingface.co/datasets/XuuuXYZ/EgoMask
EgoMask-Train训练数据集:
- 大规模训练数据
- 促进模型开发

统计信息

EgoMask-Train:
- 包含对象持续时间百分比、掩码区域百分比等统计指标
EgoMask基准:
- 包含轨迹数量、平均轨迹长度、消失比例等统计指标
- 与现有外中心基准(exocentric benchmarks)的比较数据

数据获取与预处理

克隆仓库:

git clone https://github.com/LaVi-Lab/EgoMask.git
下载数据集注释:

hf download XuuuXYZ/EgoMask --repo-type dataset --local-dir dataset
预处理脚本:
- process_refego.sh
- process_egotracks_for_benchmark.sh

评估方法

支持三种模型评估:

GroundedSAM2:
- 支持long/mid/short三种数据集类型评估
VideoLISA:
- 使用VideoLISA-3.8B模型进行评估
Sa2VA:
- 使用Sa2VA-4B模型进行评估

微调方法

VideoLISA微调:
- 基于VideoLISA-3.8B模型
- 需要特定数据目录结构
Sa2VA微调:
- 基于Sa2VA-4B模型
- 包含训练脚本和模型转换工具

引用

bibtex @article{liang2025finegrained, title={Fine-grained Spatiotemporal Grounding on Egocentric Videos}, author={Shuo Liang and Yiwu Zhong and Zi-Yuan Hu and Yeyao Tao and Liwei Wang}, journal={arxiv preprint arXiv:2508.00518}, year={2025}, }

搜集汇总

数据集介绍

构建方式

EgoMask数据集通过自动标注流程构建，该流程结合了预训练的SAM2分割模型和GPT-4o视觉语言模型。首先，利用EgoTracks数据集提供的边界框作为输入，通过SAM2生成像素级对象掩码。随后，采用两种策略生成语言查询：直接生成简短和详细描述，或首先生成对象元数据（如视觉属性和世界知识），再通过模板构建指代表达式。所有标注均经过人工验证和精修，确保数据质量。最终构建的EgoMask包含315个视频和700个查询，覆盖短、中、长期视频片段。

特点

EgoMask是首个针对自我中心视频的像素级时空基准数据集，具有以下显著特点：1）对象持续时间短且轨迹稀疏，平均连续出现时间仅占视频总长的1.33%；2）对象尺寸较小，平均掩码面积仅占帧面积的1.20%；3）位置变化剧烈，相邻帧掩码IoU均值低至14.96%；4）涵盖多样化的语言查询，平均表达长度达15词，包含空间关系、视觉属性和功能描述等多维度信息。这些特性精准反映了自我中心视频中对象动态性强、视角变化频繁的独特挑战。

使用方法

EgoMask数据集支持自我中心视频时空 grounding 任务的模型训练与评估。使用时需注意：1）基准测试部分包含按视频时长划分的三个子集（短/中/长期），可全面评估模型在不同时间跨度下的性能；2）训练集EgoMask-Train包含2,624个视频的47,968个标注，建议采用跨数据集微调策略以保持对外中心数据的泛化能力；3）评估指标除常规IoU外，特别设计了IoUgold_pred以惩罚背景帧预测，更准确反映模型在稀疏目标场景下的性能。典型工作流程包括：加载视频帧序列与语言查询，预测时空掩码管，并通过四项指标综合评估模型表现。

背景与挑战

背景概述

EgoMask数据集由香港中文大学的Shuo Liang等人于2025年提出，是首个针对第一人称视角视频的像素级时空定位基准。该数据集基于EgoTracks和RefEgo两个现有数据集构建，通过创新的自动标注流程生成精细的物体掩码和多样化语言查询，包含315个视频和700个查询，覆盖短、中、长三种时长。其核心研究在于解决增强现实和机器人应用中，由相机剧烈运动、物体短暂出现等特性带来的细粒度视觉定位难题，填补了自我中心视频理解领域的数据空白。

当前挑战

EgoMask面临双重挑战：在领域层面，需应对自我中心视频特有的短物体持续时间（平均仅占视频21.56%）、稀疏连续轨迹（连续出现时长占比1.33%）、小物体尺寸（掩码面积占比1.2%）和大位置偏移（相邻帧掩码IoU仅14.96%）等难题；在构建层面，需克服像素级标注的高成本问题，通过结合SAM2分割模型与GPT-4o语言模型设计自动化流程，并处理因相机运动导致的物体频繁进出视野、外观快速变化等标注困难。现有最优模型在该基准上表现较差（IoUgold_pred低于50%），凸显其技术挑战性。

常用场景

经典使用场景

EgoMask数据集在计算机视觉领域，特别是在增强现实（AR）和机器人技术中，被广泛用于第一人称视角视频的细粒度时空定位任务。该数据集通过提供像素级的标注，支持模型在复杂的真实场景中理解和定位目标对象。其经典使用场景包括AR眼镜中的物体识别与跟踪，以及家用机器人对周围环境的实时感知与交互。

实际应用

EgoMask数据集在实际应用中具有广泛的价值。在增强现实领域，它可以帮助AR设备更准确地识别和跟踪用户视野中的物体，从而提供更流畅的交互体验。在机器人技术中，该数据集能够提升机器人对周围环境的感知能力，使其在家庭服务或工业场景中更高效地完成任务。此外，EgoMask还可用于智能监控、虚拟现实（VR）以及自动驾驶等领域，为这些应用提供第一人称视角下的物体定位解决方案。

衍生相关工作

EgoMask数据集的发布催生了一系列相关研究工作。基于该数据集，研究人员开发了多种改进的时空定位模型，例如结合SAM2和大型语言模型的Sa2VA系列模型。这些模型在第一人称视频中的表现显著优于传统方法。此外，EgoMask还启发了对第一人称视频特性的深入研究，例如针对快速相机运动和频繁目标消失的算法优化。相关经典工作包括EgoTracks和RefEgo的扩展研究，以及多模态大语言模型在第一人称视频中的应用探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集