TAPVid-3D

Name: TAPVid-3D
Creator: TAPVid-3D team
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://tapvid3d.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估长距离三维空间中任意点追踪（TAP-3D）的基准，包含了来自不同数据源的4000多个真实世界视频。此外，该数据集还包含了关于视频长度、点追踪和轨迹速度的各种统计摘要信息，并提供交互式三维可视化以及轨迹的静态可视化。规模上，该数据集拥有4000多个真实世界视频，其任务是对三维空间中的任意点进行追踪（TAP-3D）。

This dataset is a benchmark for evaluating Tracking Any Point in 3D Space over Long Distances (TAP-3D), containing over 4,000 real-world videos sourced from diverse data sources. Additionally, it provides various statistical summary metrics related to video durations, point tracking, and trajectory velocities, alongside both interactive 3D visualizations and static visualizations of trajectories. In terms of scale, this dataset includes more than 4,000 real-world videos, and its core task is tracking any arbitrary point in 3D space (TAP-3D).

提供机构：

TAPVid-3D team

搜集汇总

数据集介绍

构建方式

在三维视觉理解领域，精确追踪任意点的三维运动轨迹是解析动态场景的核心挑战之一。TAPVid-3D基准数据集通过整合三个公开的真实世界视频源——Aria Digital Twin、DriveTrack和Panoptic Studio——构建了超过4000个视频片段。对于Aria Digital Twin，利用数字孪生中的深度图、分割掩码和物体姿态，将查询点固定于物体坐标系并反投影至各帧；DriveTrack则依托Waymo Open数据集的激光雷达点云与3D包围盒，基于刚体假设追踪选定车辆上的点；Panoptic Studio借助预训练的3D高斯泼溅动态重建，通过追踪最近高斯中心的运动生成轨迹。所有轨迹均经过自动过滤和人工校验，以确保标注质量。

特点

该数据集的核心特点在于其前所未有的规模与多样性。它包含4569个视频片段，时长从25帧到300帧不等，覆盖了室内外场景、刚体与非刚体运动、以及第一人称与第三人称视角。每个片段提供了数十至上千条三维点轨迹及其精确的(x,y,z)坐标，并标注了逐帧的可见性标志。为应对深度尺度模糊性，数据集引入了三种尺度归一化策略（全局中位数、逐轨迹、局部邻域），并设计了三维平均交并比（3D-AJ）等新指标，综合评估轨迹位置精度、可见性预测及空间-时间平滑性。

使用方法

研究者可通过官方代码仓库下载数据集并加载.npy格式的文件，其中包含轨迹坐标、查询点位置、可见性标志和相机内参。评估时，模型需对给定查询点输出每一帧的三维坐标和可见性预测，随后使用提供的脚本计算APD、OA和3D-AJ等指标。数据集分为minival（每源50个视频）和full_test两个子集，前者适用于训练期间的快速验证，后者用于最终性能评估。基线方法包括结合2D追踪器与单目深度估计或运动恢复结构的组合，以及专门为三维点追踪设计的模型（如SpatialTracker）。

背景与挑战

背景概述

在计算机视觉领域，对动态场景结构与运动的理解是构建通用具身智能体（embodied intelligence）的核心基石。尽管二维点跟踪（TAP）任务已在TAPVid-DAVIS等基准上取得了显著进展，但三维空间中的长期点跟踪（TAP-3D）评估却长期缺乏真实世界的数据支撑。为此，Google DeepMind联合伦敦大学学院与牛津大学的研究团队于2024年推出了TAPVid-3D基准数据集，旨在填补这一空白。该数据集整合了Aria Digital Twin、DriveTrack与Panoptic Studio三大公开数据源，涵盖4000余段真实世界视频，涉及室内外环境、多样化物体类型及复杂运动模式，为评估模型在单目视频中精确理解三维运动与表面变形能力提供了标准化平台。TAPVid-3D的发布不仅推动了三维点跟踪任务的正式定义与度量体系建立，更对机器人操作、可控视频生成及动态场景重建等下游应用产生了深远影响。

当前挑战

TAPVid-3D所应对的核心领域挑战在于：现有二维点跟踪基准无法评估模型对三维空间运动的理解，而基于合成数据的评估（如Kubric）存在显著的领域鸿沟，难以反映真实场景中的模型表现。具体而言，该基准需解决三大构建难题：其一，从多源异构数据中提取一致的度量三维轨迹，需克服传感器噪声（如LIDAR抖动）、标注对齐误差（如Aria Digital Twin中合成标注与真实视频的微小偏移）及高斯泼溅重建不充分等问题；其二，定义兼容深度尺度歧义性与遮挡复杂度的评估指标，需在全局缩放、单轨迹缩放与局部邻域缩放之间权衡，以公平衡量模型在深度一致性、空间连续性及运动估计上的综合能力；其三，手工验证大规模轨迹样本的正确性，通过自动化过滤与人工抽样结合的方式剔除可见性标志闪烁、越界轨迹及噪声点，确保基准的可靠性与代表性。

常用场景

经典使用场景

在三维视觉与动态场景理解领域，TAPVid-3D被广泛用于评估模型对任意三维点进行长时跟踪的能力。该数据集整合了来自Aria Digital Twin、DriveTrack和Panoptic Studio三大来源的4000余段真实世界视频，涵盖了室内外多样化的物体类别、运动模式与环境光照。研究者通过提供查询点的三维轨迹与遮挡标注，系统性地评测跟踪算法在三维空间中的时空连贯性与深度感知精度，为从单目视频中理解物体表面形变与空间动态提供了标准化的测试平台。

解决学术问题

TAPVid-3D填补了三维点跟踪领域缺乏真实世界基准的空白，解决了现有二维跟踪基准无法评估深度维度性能的根本性局限。它系统性地衡量模型在复杂场景下的三维轨迹预测精度、遮挡处理能力以及跨帧时空平滑性，克服了光流与场景流方法仅捕捉瞬时运动的不足。该基准的提出推动了从单目视频中学习通用三维运动表征的研究进展，为动态场景重建、非刚体运动分析与粒子级运动理解等学术问题提供了关键的评估工具与性能标杆。

衍生相关工作

TAPVid-3D的提出催生了一系列具有影响力的后续工作。在基线方法方面，研究者将BootsTAPIR、CoTracker等先进二维点跟踪器与ZoeDepth、COLMAP等深度估计方法相结合，构建了三维跟踪的强基线系统。SpatialTracker作为首个专为三维点跟踪设计的模型，利用单目深度初始化与重投影一致性约束实现了跨帧的三维关联。此外，TAPIR-3D作为从合成数据训练的扩展版本，探索了无需几何先验的端到端三维轨迹预测路径，这些工作共同推动了三维点跟踪领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集