MVTrack

arXiv2025-02-27 更新2025-03-04 收录

下载链接：

https://mii-laboratory.github.io/MITracker/

下载链接

链接失效反馈

官方服务：

资源简介：

MVTrack数据集是由上海科技大学生物医学工程学院和国家重点实验室构建的多视角跟踪数据集，包含234K个高质量标注帧，涵盖27个不同对象类别，跨越9个具有挑战性的跟踪属性，如遮挡和形变。该数据集由3-4个校准相机捕获，提供精确的边界框(BBox)注释，并包含训练、验证和测试集，是首个为训练类无关多视角跟踪方法提供的全面基准数据集，也为评估这些方法提供了丰富的手段。

The MVTrack dataset is a multi-view tracking benchmark constructed by the School of Biomedical Engineering, ShanghaiTech University and the State Key Laboratory. It contains 234K high-quality annotated frames, covering 27 distinct object categories and spanning 9 challenging tracking attributes such as occlusion and deformation. Captured by 3-4 calibrated cameras, it provides precise bounding box (BBox) annotations, and includes training, validation, and test splits. It is the first comprehensive benchmark dataset for training class-agnostic multi-view tracking methods, and also provides a rich means for evaluating such methods.

提供机构：

上海科技大学生物医学工程学院 & 国家重点实验室

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

MVTrack数据集的构建采用了多摄像机系统，使用3至4台时间同步的Azure Kinect摄像机进行数据采集。这些摄像机以1920×1080的分辨率和30帧每秒的速率记录视频序列，并确保多视角的重叠，以便于摄像机之间的信息融合。摄像机的外部参数通过校准和微调获得，并将所有视角对齐到一个统一的坐标系中。数据标注方面，MVTrack数据集提供了帧级别的标注，包括2D对象边界框和地面坐标标注，所有标注均为半自动生成，并通过人工调整和双重检查确保准确性。该数据集特别关注9个常见的跟踪挑战，如背景杂波、运动模糊、部分遮挡、完全遮挡、视线外、变形、低分辨率、宽高比变化和尺度变化，以便更好地评估跟踪器的性能。

使用方法

使用MVTrack数据集时，首先需要将2D特征图从多个视角投影到3D特征空间，并在鸟瞰图（BEV）指导下进行特征融合。然后，将融合后的3D特征嵌入到3D感知token中，并使用空间增强注意力机制对来自特定视角的未细化特征进行细化，从而产生稳定的跟踪结果。在多视角场景中，MITracker通过后处理策略来获取多视角结果，将单视角预测投影到3D世界坐标系中，并识别具有最大重叠区域的区域作为目标位置，然后将其重新投影到每个视角的2D图像平面上以生成融合的多视角跟踪结果。

背景与挑战

背景概述

在视觉对象追踪领域，多视角对象追踪（MVOT）作为一种新兴技术，为解决传统单视角追踪中的遮挡和目标丢失等问题提供了新的思路。为了推动MVOT技术的发展，研究人员亟需一个全面的多视角数据集和有效的跨视角融合方法。鉴于此，来自上海科技大学和上海交通大学的研究团队共同构建了MVTrack数据集，该数据集包含234K高质量标注帧，涵盖27种不同对象，并跨越多种场景。同时，他们还提出了一种名为Multi-View Integration Tracker（MITracker）的MVOT新方法，该方法能够高效地融合多视角对象特征并提供稳定的追踪结果。MITracker在MVTrack和GMTD数据集上均取得了最先进的性能，为MVOT技术的研究和应用奠定了基础。

当前挑战

尽管MVOT技术在处理遮挡和目标丢失等问题上具有显著优势，但仍面临着一些挑战。首先，现有的多视角数据集主要集中在特定的对象类别上，如人类或鸟类，限制了其在通用对象追踪上的应用。其次，当前MVOT方法主要关注于使用检测和重识别方法追踪特定类别的对象，不适用于无类别追踪。此外，由于缺乏全面的多视角数据，研究人员在训练模型时往往依赖于单视角数据集，这严重限制了模型理解不同视角间复杂空间关系和外观变化的能力。为了应对这些挑战，MVTrack数据集不仅提供了训练和评估集，还涵盖了27个日常对象类别和9种具有挑战性的追踪属性，如遮挡和变形。MITracker方法则通过构建鸟瞰图引导的3D特征体积和利用空间增强注意力机制，实现了对不同视角下任意对象的稳定追踪。

常用场景

经典使用场景

MVTrack数据集主要用于多视角视觉对象跟踪（MVOT）领域的研究与开发。该数据集为研究者提供了丰富的多视角视频序列，并标注了精确的边界框，涵盖了27个不同的对象类别，以及9种具有挑战性的跟踪属性，如遮挡和变形。通过使用MVTrack，研究者可以训练和评估多视角跟踪算法，从而提高算法在复杂环境下的鲁棒性和准确性。

解决学术问题

MVTrack数据集解决了多视角跟踪领域缺乏大规模、多样化数据集的问题。现有的多视角数据集往往局限于特定的对象类别，如行人或鸟类，限制了算法的通用性。MVTrack提供了更广泛的对象类别和场景，使算法能够更好地理解和处理不同视角下的空间关系和外观变化。此外，MVTrack数据集还包含了丰富的跟踪属性标注，有助于评估算法在不同挑战性场景下的性能。

实际应用

MVTrack数据集在实际应用中具有广泛的应用前景。多视角跟踪技术在增强现实、自动驾驶、视频监控等领域具有重要应用。通过使用MVTrack训练的多视角跟踪算法，可以实现对动态环境中各种对象的持续监测和轨迹预测。例如，在自动驾驶中，多视角跟踪算法可以帮助车辆识别和跟踪周围的其他车辆和行人，提高行驶安全性。在视频监控中，多视角跟踪算法可以帮助监控人员实时跟踪和识别可疑目标，提高监控效率。

数据集最近研究