EgoTracks

Name: EgoTracks
Creator: Meta AI
Published: 2023-10-02 06:54:53
License: 暂无描述

arXiv2023-10-02 更新2024-06-21 收录

下载链接：

https://github.com/EGO4D/episodic-memory/tree/main/EgoTracks

下载链接

链接失效反馈

官方服务：

资源简介：

EgoTracks是首个大规模长期第一人称视觉对象跟踪数据集，由Meta AI和UT Austin联合创建。数据集包含22,028个跟踪轨迹，源自5708个平均时长6分钟的视频，这些视频均来自Ego4D数据集，涵盖了日常生活中的多种场景。EgoTracks的创建过程涉及从Ego4D中筛选视频，并对其进行密集标注，每个视频平均包含约1800帧，标注工作耗时约1到2小时每轨迹。该数据集主要用于训练和评估长期跟踪模型，特别是在处理频繁的对象出现与消失、视角变化、手部与对象互动等挑战性场景中的应用。

EgoTracks is the first large-scale long-term first-person visual object tracking dataset, jointly created by Meta AI and The University of Texas at Austin. The dataset contains 22,028 tracking trajectories, sourced from 5,708 videos with an average duration of 6 minutes, all extracted from the Ego4D dataset and covering various daily life scenarios. The construction of EgoTracks involves screening videos from Ego4D and performing dense annotations on them. Each video contains approximately 1,800 frames on average, and the annotation work takes about 1 to 2 hours per trajectory. This dataset is primarily used for training and evaluating long-term tracking models, especially for applications in challenging scenarios such as frequent object appearance and disappearance, viewpoint changes, and hand-object interactions.

提供机构：

Meta AI

创建时间：

2023-01-09

搜集汇总

数据集介绍

构建方式

在具身智能与第一人称视觉研究蓬勃发展的背景下，EgoTracks数据集的构建旨在填补长期自我中心视觉对象跟踪领域的数据空白。其构建过程以大规模自我中心视频数据集Ego4D为基础，从中选取了5708段平均时长约6分钟的非脚本化、真实场景视频。标注工作始于Ego4D的视觉查询基准，要求标注员从视频起始帧开始，对指定的目标对象进行密集的、贯穿全视频的边界框标注，确保对象每次出现都被记录，而对象未出现的帧则明确标记为负样本。这一过程极为耗时，每条轨迹的标注约需1至2小时，总计投入约8.6万工时。为确保数据质量，所有标注均经过专家审核，并通过多评审员交叉验证，其标注间交并比高于0.88，在对象出现的时间一致性上也表现出高度吻合。

使用方法

EgoTracks数据集为训练和评估长期单对象跟踪模型提供了标准化的测试平台。研究者可利用其提供的训练集对现有跟踪器进行微调，以适配自我中心视频的领域特性。在评估方面，数据集设计了多种协议以全面衡量跟踪器性能：例如，VCT-→VS协议要求跟踪器从视频起始帧开始，使用高质量视觉裁剪作为模板进行因果式跟踪，全面考验其长期跟踪与重检测能力；而OFFT-→OO协议则仅在对象出现的片段内评估，用于分离重检测挑战与其他跟踪问题。评估指标综合采用了F分数、精确率、召回率以及平均重叠率等。通过在该数据集上的基准测试，研究可以揭示现有基于第三人称视频先验的跟踪器在自我中心场景下的局限性，并推动开发更鲁棒的重检测算法、更强大的对象特征关联方法以及能够适应快速外观变化的动态模板表示策略。

背景与挑战

背景概述

在具身人工智能与第一人称视觉研究蓬勃发展的背景下，传统第三人称视角的视觉对象追踪数据集难以充分表征真实世界中的复杂挑战。为填补这一领域空白，Meta AI与德克萨斯大学奥斯汀分校的研究团队于2022年共同推出了EgoTracks数据集。该数据集源自大规模第一人称视频数据集Ego4D，专注于解决长期自我中心视觉对象追踪这一核心研究问题。其核心在于模拟真实世界中因穿戴者头部运动、手部交互及长时间活动导致的物体频繁消失与重现场景，旨在推动追踪算法在动态、非结构化环境中的鲁棒性发展。EgoTracks的发布为机器人学、增强现实等应用提供了至关重要的基准测试平台，显著拓展了视觉追踪领域的研究边界。

当前挑战

EgoTracks数据集所应对的核心领域挑战是长期自我中心视觉对象追踪，其难点远超传统的短时、第三人称追踪。具体而言，该领域挑战包括：物体因剧烈相机运动频繁移出视野后的重新检测问题；手部交互导致的大尺度遮挡与物体姿态剧变；以及长视频序列中物体外观因视角、尺度与状态变化而产生的显著差异。在数据集构建层面，挑战同样艰巨：从Ego4D海量视频中筛选并密集标注超过2.2万条轨迹耗费了约8.6万工时；为确保标注质量，需设计严格的多人复核流程以保障时间连续性与边界框一致性；此外，还需定义并标注‘物体被主动使用’、‘物体发生形变’等属性，以支持对算法在特定困难场景下的细粒度评估。

常用场景

经典使用场景

在具身人工智能与第一人称视觉研究领域，EgoTracks数据集为长时单目标跟踪任务提供了核心评估基准。该数据集源自大规模真实世界活动记录Ego4D，其视频平均时长约6分钟，包含频繁的相机运动、手物交互以及目标反复进出视野等复杂场景。研究者通常利用EgoTracks验证跟踪算法在长时、非结构化环境下的鲁棒性，特别是评估模型在目标消失后重新检测的能力。通过VCT-VS等评估协议，该数据集已成为衡量跟踪器在自我中心视角下综合性能的黄金标准。

解决学术问题

EgoTracks主要解决了传统跟踪数据集在自我中心视觉领域的表征不足问题。以往数据集多基于短时、第三人称视频构建，其平稳的运动假设与有限的消失重现场景难以反映真实第一人称视角的挑战。该数据集通过大规模、长时、多样化的自我中心视频标注，系统性地揭示了目标频繁遮挡、尺度剧变、视角切换等核心难题，迫使研究社区重新审视跟踪算法的设计先验。它尤其强调了重检测在长时跟踪中的关键作用，填补了现有评估体系的盲区，推动了跟踪研究向更贴近实际应用场景的方向演进。

实际应用

EgoTracks的实际应用价值在增强现实、服务机器人及可穿戴计算等领域尤为显著。在增强现实场景中，设备需持续跟踪用户手中的工具或视野中的关键物体，即便经历频繁遮挡或短暂离开画面。服务机器人通过第一人称视角理解环境并操作物体时，稳健的长时跟踪能力是完成抓取、递送等任务的基础。此外，该数据集支撑的算法可应用于生活日志分析、智能辅助系统及交互式视频检索，通过持续关联物体在多帧中的出现，实现对日常活动的深层理解与记忆增强。

数据集最近研究