EgoMask

github2025-08-04 更新2025-08-10 收录

下载链接：

https://github.com/LaVi-Lab/EgoMask

下载链接

链接失效反馈

官方服务：

资源简介：

EgoMask是第一个用于自我中心视频中细粒度时空定位的像素级基准数据集。它通过自动数据标注流程开发，旨在解决自我中心视频中物体持续时间短、轨迹稀疏、物体尺寸小和位置偏移大等关键挑战。

EgoMask is the first pixel-level benchmark dataset for fine-grained spatiotemporal localization in egocentric videos. Developed through an automated data annotation process, it aims to address key challenges such as short object duration, sparse trajectories, small object sizes, and significant position offsets in egocentric videos.

创建时间：

2025-08-04

原始信息汇总

EgoMask数据集概述

📜 数据集背景

专注于自我中心视频（egocentric videos）中的细粒度时空定位任务。
揭示了自我中心视频与外部中心视频（exocentric videos）之间的关键差异：
- 更短的对象持续时间
- 更稀疏的轨迹
- 更小的对象尺寸
- 更大的位置偏移

📊 数据集内容

EgoMask：首个针对自我中心视频的像素级细粒度时空定位基准数据集。
EgoMask-Train：大规模训练数据集，用于促进模型开发。

数据集统计

Total Duration (%)：对象总出现时间的百分比。
Mask Area (%)：标注掩码面积占帧尺寸的平均比例，反映对象大小。
# Traj：对象在视频中的连续轨迹数量。
Avg. Traj. Length (%)：每个轨迹持续时间占整个视频的平均比例。
Disappear. Ratio(%)：消失持续时间与轨迹持续时间的平均比例。
Adj. Mask IoU(%)：相邻帧中目标对象掩码的IoU值，反映位置偏移。
Expr.：表达式。

🌟 数据集获取与准备

数据集标注可通过Hugging Face获取。
准备步骤：
1. 克隆仓库：git clone https://github.com/LaVi-Lab/EgoMask.git
2. 下载数据集标注：hf download XuuuXYZ/EgoMask --repo-type dataset --local-dir dataset
3. 预处理数据：执行dataset/preprocess中的脚本。

🎯 评估与微调

评估方法

支持以下模型的评估：

GroundedSAM2
VideoLISA
Sa2VA

微调方法

VideoLISA：
1. 设置环境并准备数据。
2. 替换原始目录和文件。
3. 运行微调脚本。
Sa2VA：
1. 设置环境并准备数据。
2. 复制文件到相应目录。
3. 修改模型路径或配置路径。
4. 运行训练脚本并转换模型格式。

🤝 致谢

使用了EgoTracks和RefEgo数据集。
参考了Grounded-SAM2、Sa2VA和VideoLISA的工作。

🚩 引用

如需使用EgoMask，请引用以下论文：

@article{liang2025finegrained, title={Fine-grained Spatiotemporal Grounding on Egocentric Videos}, author={Shuo Liang and Yiwu Zhong and Zi-Yuan Hu and Yeyao Tao and Liwei Wang}, journal={arxiv preprint arXiv:2508.00518}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在自中心视频分析领域，EgoMask数据集的构建采用了自动化标注流程，通过系统性地分析自中心与外中心视频之间的差异，解决了现有数据集中对象持续时间短、轨迹稀疏、尺寸小及位置偏移大等关键挑战。该数据集包含像素级标注的自中心视频基准EgoMask及大规模训练数据集EgoMask-Train，为细粒度时空定位任务提供了首个标准化评估平台。

特点

EgoMask数据集以其独特的细粒度时空标注著称，特别针对自中心视频中对象的动态特性进行了优化。通过统计数据显示，该数据集在对象持续时间、轨迹密度、尺寸分布及位置稳定性等维度均显著优于现有基准，为模型训练提供了更贴近真实场景的数据分布。其标注质量与规模的双重优势，使其成为推动自中心视频理解技术发展的关键基础设施。

使用方法

使用EgoMask数据集需遵循标准化流程：首先通过Hugging Face平台获取标注数据，随后按照预处理脚本处理原始Ego4D视频数据。评估阶段支持GroundedSAM2、VideoLISA和Sa2VA等主流模型的直接适配，用户可通过修改配置文件路径快速开展实验。对于模型微调，数据集提供了与VideoLISA-3.8B和Sa2VA-4B等预训练模型的兼容接口，包含完整的数据结构规范和转换脚本。

背景与挑战

背景概述

EgoMask数据集由香港中文大学的研究团队于2025年推出，专注于解决第一人称视角视频中的细粒度时空定位问题。该数据集由Shuo Liang、Yiwu Zhong等学者主导开发，旨在填补该领域缺乏像素级标注基准的空白。研究团队通过系统分析第一人称与第三人称视频的差异，揭示了目标持续时间短、轨迹稀疏、目标尺寸小以及位置偏移大等核心挑战。EgoMask的创建不仅为计算机视觉领域提供了首个针对第一人称视频的精细标注资源，其配套的大规模训练数据集EgoMask-Train更显著提升了现有模型在第一人称视频任务中的表现。

当前挑战

EgoMask数据集面临的主要挑战体现在两个方面：在领域问题层面，第一人称视频中目标的短暂出现时间、不连续运动轨迹以及频繁的尺度变化，使得传统基于第三人称视频开发的时空定位模型难以准确捕捉目标；在构建过程中，研究团队需要克服标注效率与精度的平衡难题，为此开发了自动化标注流程，解决了第一人称视频中目标尺寸小、遮挡频繁导致的标注困难。同时，数据集还需确保标注结果能够准确反映第一人称视角特有的动态特性，如剧烈的视角变化和目标快速移动等问题。

常用场景

经典使用场景

在计算机视觉领域，EgoMask数据集为研究者提供了一个独特的视角，专注于第一人称视频中的细粒度时空定位。该数据集通过自动标注管道生成的像素级标注，使得研究者能够深入探索自我中心视频中物体的动态变化。经典使用场景包括物体追踪、行为识别以及场景理解，特别是在处理短时物体出现、稀疏轨迹和小尺寸物体等挑战时表现出色。

实际应用

在实际应用中，EgoMask数据集为增强现实、虚拟现实以及智能辅助系统提供了重要支持。例如，在智能眼镜或头戴设备中，该数据集可以帮助系统更准确地识别和追踪用户视野中的物体，从而提升交互体验。此外，在自动驾驶领域，该数据集也能用于模拟驾驶员视角，优化车辆对周围环境的感知能力。

衍生相关工作

EgoMask数据集的推出催生了一系列相关研究，特别是在自我中心视频分析领域。基于该数据集，研究者们开发了多种改进模型，如GroundedSAM2、VideoLISA和Sa2VA等。这些工作不仅验证了数据集的有效性，还进一步拓展了其在多模态学习、实时物体追踪等方向的应用潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集