MVTracker

Name: MVTracker
Creator: ETH Zurich, Carnegie Mellon University, Balgrist University Hospital, Microsoft
Published: 2025-08-29 01:58:20
License: 暂无描述

arXiv2025-08-29 更新2025-08-30 收录

下载链接：

https://ethz-vlg.github.io/mvtracker

下载链接

链接失效反馈

官方服务：

资源简介：

MVTracker是一个数据驱动的多视图3D点跟踪器，旨在使用多个摄像机视图跟踪动态场景中的任意点。与现有的单目跟踪器相比，该跟踪器能够处理深度模糊和遮挡问题，并且与需要超过20个摄像机和繁琐的每序列优化的先前多摄像机方法不同，我们的前馈模型可以直接使用实际数量的摄像机（例如，四个）预测3D对应关系，从而实现鲁棒且准确的在线跟踪。我们在5K个合成多视图Kubric序列上进行训练，并在两个真实世界基准测试数据集——Panoptic Studio和DexYCB上进行评估，分别实现了3.1cm和2.0cm的中值轨迹误差。我们的方法能够很好地泛化到具有1-8个视图和24-150帧视频长度的各种摄像机设置。通过发布我们的跟踪器以及训练和评估数据集，我们旨在为多视图3D跟踪研究设定新的标准，并为实际应用提供实用的工具。

MVTracker is a data-driven multi-view 3D point tracker designed to track arbitrary points in dynamic scenes using multiple camera views. Compared with existing monocular trackers, this tracker can handle depth blur and occlusion issues. Unlike previous multi-camera methods that require more than 20 cameras and cumbersome per-sequence optimization, our feed-forward model can directly predict 3D correspondences using a practical number of cameras (e.g., four), enabling robust and accurate online tracking. We trained our model on 5K synthetic multi-view Kubric sequences, and evaluated it on two real-world benchmark datasets: Panoptic Studio and DexYCB, achieving median trajectory errors of 3.1 cm and 2.0 cm respectively. Our method generalizes well to various camera settings with 1 to 8 views and video lengths ranging from 24 to 150 frames. By releasing our tracker along with the training and evaluation datasets, we aim to set new standards for multi-view 3D tracking research and provide practical tools for real-world applications.

提供机构：

ETH Zurich, Carnegie Mellon University, Balgrist University Hospital, Microsoft

创建时间：

2025-08-29

原始信息汇总

Multi-View 3D Point Tracking (MVTracker) 数据集概述

基本信息

数据集名称：MVTracker
提出机构：ETH Zürich, Carnegie Mellon University, Balgrist University Hospital, Microsoft
发表会议：ICCV 2025 (Oral)

核心目标

MVTracker是首个数据驱动的多视角3D点跟踪器，旨在使用多个相机视图跟踪动态场景中的任意点。

技术特点

输入要求：多视角RGB视频和相机参数
深度来源：支持传感器提供或估计的多视角深度
相机数量：实用数量（例如四个），可泛化到1-8个相机配置
处理方式：前馈模型直接预测3D对应关系，支持在线跟踪
核心算法：
- 使用CNN编码器提取每视图特征图
- 构建融合3D点云并将点与学习特征关联
- 基于有向kNN的相关性跨空间和时间链接点
- 使用基于变换器的迭代细化点轨迹

训练数据

使用5K合成多视角Kubric序列进行训练

评估基准

Panoptic Studio：中位数轨迹误差3.1 cm
DexYCB：中位数轨迹误差2.0 cm

性能表现

在DexYCB上：
- 比最强单目跟踪器提升63.6%
- 比基于三平面的多视角基线提升53.5%
支持不同视角点和24-150帧视频长度的多样化相机设置

输出结果

产生时间一致的3D点轨迹
提供遮挡感知的可见性预测

资源提供

发布预训练跟踪器
提供训练和评估数据集

引用格式

bibtex @inproceedings{rajic2025mvtracker, title = {Multi-View 3D Point Tracking}, author = {Raji{v{c}}, Frano and Xu, Haofei and Mihajlovic, Marko and Li, Siyuan and Demir, Irem and G{"u}ndo{u{g}}du, Emircan and Ke, Lei and Prokudin, Sergey and Pollefeys, Marc and Tang, Siyu}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

MVTracker数据集的构建依托于合成多视角视频序列生成技术，采用Kubric框架模拟了5000段动态场景的多视角序列。每个序列包含同步的RGB帧、已知相机参数及深度信息，深度数据可来源于传感器或估计算法如DUSt3R。通过将多视角特征融合为统一的三维点云，并利用k近邻相关性建立时空关联，最终通过变换器迭代优化生成精确的三维点轨迹。

特点

该数据集的核心特点在于其多视角三维点跟踪能力，支持1至8个任意视角的相机配置，并能处理长达150帧的序列。其融合点云表示有效避免了传统三平面方法的信息损失，具备对遮挡和复杂运动的鲁棒性。数据集在Panoptic Studio和DexYCB等真实场景基准测试中实现了3.1厘米和2.0厘米的中位轨迹误差，展现了优异的跨域泛化性能。

使用方法

使用者需提供多视角RGB视频、相机内外参及深度图（传感器或估计值），通过预训练的馈送模型直接预测三维点轨迹。模型首先提取多尺度特征并构建融合点云，继而通过k近邻相关性计算和变换器优化实现跟踪。支持滑动窗口处理长序列，输出包含三维坐标和可见性标签的轨迹数据，适用于动态场景重建、机器人视觉等实时应用场景。

背景与挑战

背景概述

MVTracker由苏黎世联邦理工学院团队于2025年提出，是首个数据驱动的多视角三维点追踪数据集，旨在解决动态场景中任意三维点的跨视角追踪问题。该数据集通过融合多视角特征至统一的三维点云，并采用k近邻相关性计算与时空变换器迭代优化，显著提升了三维运动建模的精度与鲁棒性。其创新性在于仅需少量相机（如四个视角）即可实现在线追踪，突破了传统方法对超多相机配置与逐序列优化的依赖，为计算机视觉领域的动态重建、机器人交互与增强现实应用提供了重要基础。

当前挑战

三维点追踪需解决单视角下的深度模糊与遮挡问题，而多视角融合需克服视角间几何一致性维护的复杂性。构建过程中，合成数据与真实场景间的域差异、深度估计噪声与多相机标定误差构成主要挑战。此外，长序列追踪中的运动累积误差与遮挡下的点重识别，要求模型具备强大的时空推理能力与泛化性能。

常用场景

经典使用场景

在动态场景三维重建领域，MVTracker通过融合多视角RGB-D数据构建统一的三维特征点云，利用k近邻相关性搜索与时空变换器迭代优化，实现对任意三维点的长程精准追踪。该方法在四相机配置下即可稳定运行，有效解决了传统单目追踪中的深度歧义问题，为多视角几何分析提供了可靠的数据基础。

衍生相关工作

该数据集催生了多视角三维追踪的一系列创新研究，包括基于三平面表征的SpatialTracker扩展版本、融合单目先验的Shape of Motion多视角适配框架，以及Dynamic 3DGS的高斯重建追踪方法。其kNN相关性与点云融合范式更被广泛应用于后续的端到端4D重建模型，形成了多视角几何学习的新技术范式。

数据集最近研究