EgoMask
收藏arXiv2025-08-01 更新2025-08-05 收录
下载链接:
https://github.com/LaVi-Lab/EgoMask
下载链接
链接失效反馈官方服务:
资源简介:
EgoMask是一个针对第一人称视角视频的像素级时空定位基准数据集,旨在促进增强现实和机器人等领域的应用。该数据集包含315个视频,涵盖了短期、中期和长期视频,并提供了700个查询,以便进行全面的评估。此外,还创建了EgoMask-Train,这是一个大规模的训练数据集,包含2,624个视频,用于支持模型开发。通过实验表明,现有的时空定位模型在EgoMask基准上表现不佳,但在EgoMask-Train上进行微调后,性能有了显著提高,同时保持了在非第一人称视角数据集上的性能。因此,EgoMask数据集为推动第一人称视角视频理解提供了重要的资源和见解。
EgoMask is a pixel-level spatio-temporal localization benchmark dataset for first-person view videos, intended to advance applications in domains such as augmented reality and robotics. This dataset comprises 315 videos covering short-, medium-, and long-duration clips, and provides 700 queries to support comprehensive evaluation. Furthermore, EgoMask-Train, a large-scale training dataset containing 2,624 videos, was constructed to facilitate model development. Experimental results demonstrate that existing spatio-temporal localization models perform poorly on the EgoMask benchmark, but their performance improves significantly after fine-tuning on EgoMask-Train while maintaining their performance on non-first-person view datasets. Consequently, the EgoMask dataset provides valuable resources and insights for advancing first-person video understanding.
提供机构:
香港中文大学
创建时间:
2025-08-01
原始信息汇总
EgoMask数据集概述
数据集简介
- 名称: EgoMask
- 类型: 像素级基准数据集
- 领域: 第一人称视角(egocentric)视频的细粒度时空定位
- 主要贡献:
- 首个针对第一人称视角视频的像素级细粒度时空定位基准
- 提供大规模训练数据集EgoMask-Train
数据集特点
- 挑战性特征:
- 更短的对象持续时间
- 更稀疏的对象轨迹
- 更小的对象尺寸
- 更大的位置偏移
数据集组成
- EgoMask基准数据集:
- 包含详细注释
- 可从Hugging Face获取: https://huggingface.co/datasets/XuuuXYZ/EgoMask
- EgoMask-Train训练数据集:
- 大规模训练数据
- 促进模型开发
统计信息
- EgoMask-Train:
- 包含对象持续时间百分比、掩码区域百分比等统计指标
- EgoMask基准:
- 包含轨迹数量、平均轨迹长度、消失比例等统计指标
- 与现有外中心基准(exocentric benchmarks)的比较数据
数据获取与预处理
-
克隆仓库:
git clone https://github.com/LaVi-Lab/EgoMask.git
-
下载数据集注释:
hf download XuuuXYZ/EgoMask --repo-type dataset --local-dir dataset
-
预处理脚本:
- process_refego.sh
- process_egotracks_for_benchmark.sh
评估方法
支持三种模型评估:
- GroundedSAM2:
- 支持long/mid/short三种数据集类型评估
- VideoLISA:
- 使用VideoLISA-3.8B模型进行评估
- Sa2VA:
- 使用Sa2VA-4B模型进行评估
微调方法
- VideoLISA微调:
- 基于VideoLISA-3.8B模型
- 需要特定数据目录结构
- Sa2VA微调:
- 基于Sa2VA-4B模型
- 包含训练脚本和模型转换工具
相关资源
- 论文: https://arxiv.org/abs/2508.00518
- 数据: https://huggingface.co/datasets/XuuuXYZ/EgoMask
- 基础数据集: EgoTracks, RefEgo
- 参考模型: Grounded-SAM2, Sa2VA, VideoLISA
引用
bibtex @article{liang2025finegrained, title={Fine-grained Spatiotemporal Grounding on Egocentric Videos}, author={Shuo Liang and Yiwu Zhong and Zi-Yuan Hu and Yeyao Tao and Liwei Wang}, journal={arxiv preprint arXiv:2508.00518}, year={2025}, }
搜集汇总
数据集介绍

构建方式
EgoMask数据集通过自动标注流程构建,该流程结合了预训练的SAM2分割模型和GPT-4o视觉语言模型。首先,利用EgoTracks数据集提供的边界框作为输入,通过SAM2生成像素级对象掩码。随后,采用两种策略生成语言查询:直接生成简短和详细描述,或首先生成对象元数据(如视觉属性和世界知识),再通过模板构建指代表达式。所有标注均经过人工验证和精修,确保数据质量。最终构建的EgoMask包含315个视频和700个查询,覆盖短、中、长期视频片段。
特点
EgoMask是首个针对自我中心视频的像素级时空基准数据集,具有以下显著特点:1)对象持续时间短且轨迹稀疏,平均连续出现时间仅占视频总长的1.33%;2)对象尺寸较小,平均掩码面积仅占帧面积的1.20%;3)位置变化剧烈,相邻帧掩码IoU均值低至14.96%;4)涵盖多样化的语言查询,平均表达长度达15词,包含空间关系、视觉属性和功能描述等多维度信息。这些特性精准反映了自我中心视频中对象动态性强、视角变化频繁的独特挑战。
使用方法
EgoMask数据集支持自我中心视频时空 grounding 任务的模型训练与评估。使用时需注意:1)基准测试部分包含按视频时长划分的三个子集(短/中/长期),可全面评估模型在不同时间跨度下的性能;2)训练集EgoMask-Train包含2,624个视频的47,968个标注,建议采用跨数据集微调策略以保持对外中心数据的泛化能力;3)评估指标除常规IoU外,特别设计了IoUgold_pred以惩罚背景帧预测,更准确反映模型在稀疏目标场景下的性能。典型工作流程包括:加载视频帧序列与语言查询,预测时空掩码管,并通过四项指标综合评估模型表现。
背景与挑战
背景概述
EgoMask数据集由香港中文大学的Shuo Liang等人于2025年提出,是首个针对第一人称视角视频的像素级时空定位基准。该数据集基于EgoTracks和RefEgo两个现有数据集构建,通过创新的自动标注流程生成精细的物体掩码和多样化语言查询,包含315个视频和700个查询,覆盖短、中、长三种时长。其核心研究在于解决增强现实和机器人应用中,由相机剧烈运动、物体短暂出现等特性带来的细粒度视觉定位难题,填补了自我中心视频理解领域的数据空白。
当前挑战
EgoMask面临双重挑战:在领域层面,需应对自我中心视频特有的短物体持续时间(平均仅占视频21.56%)、稀疏连续轨迹(连续出现时长占比1.33%)、小物体尺寸(掩码面积占比1.2%)和大位置偏移(相邻帧掩码IoU仅14.96%)等难题;在构建层面,需克服像素级标注的高成本问题,通过结合SAM2分割模型与GPT-4o语言模型设计自动化流程,并处理因相机运动导致的物体频繁进出视野、外观快速变化等标注困难。现有最优模型在该基准上表现较差(IoUgold_pred低于50%),凸显其技术挑战性。
常用场景
经典使用场景
EgoMask数据集在计算机视觉领域,特别是在增强现实(AR)和机器人技术中,被广泛用于第一人称视角视频的细粒度时空定位任务。该数据集通过提供像素级的标注,支持模型在复杂的真实场景中理解和定位目标对象。其经典使用场景包括AR眼镜中的物体识别与跟踪,以及家用机器人对周围环境的实时感知与交互。
实际应用
EgoMask数据集在实际应用中具有广泛的价值。在增强现实领域,它可以帮助AR设备更准确地识别和跟踪用户视野中的物体,从而提供更流畅的交互体验。在机器人技术中,该数据集能够提升机器人对周围环境的感知能力,使其在家庭服务或工业场景中更高效地完成任务。此外,EgoMask还可用于智能监控、虚拟现实(VR)以及自动驾驶等领域,为这些应用提供第一人称视角下的物体定位解决方案。
衍生相关工作
EgoMask数据集的发布催生了一系列相关研究工作。基于该数据集,研究人员开发了多种改进的时空定位模型,例如结合SAM2和大型语言模型的Sa2VA系列模型。这些模型在第一人称视频中的表现显著优于传统方法。此外,EgoMask还启发了对第一人称视频特性的深入研究,例如针对快速相机运动和频繁目标消失的算法优化。相关经典工作包括EgoTracks和RefEgo的扩展研究,以及多模态大语言模型在第一人称视频中的应用探索。
以上内容由遇见数据集搜集并总结生成



