MMPTRACK

arXiv2025-09-30 收录

下载链接：

https://iccv2021-mmp.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是目前公开可用的最大多视角多人追踪数据集，包含超过9.6小时的视频资料。该数据集被划分为训练集、验证集和测试集，其中测试集的地面真实情况被隐藏。其任务是进行多视角多人追踪。

This is the largest publicly available multi-view multi-person tracking dataset to date, containing over 9.6 hours of video footage. The dataset is split into training, validation, and test sets, where the ground truth annotations of the test set are withheld. The core task of this dataset is multi-view multi-person tracking.

搜集汇总

数据集介绍

构建方式

MMPTRACK数据集的构建依托于一套创新的自动标注系统，该系统融合了多台经过标定的深度传感器与RGB相机。首先，通过深度传感器重建场景的三维点云，并投影至俯视图，利用基于深度学习的检测器与跟踪器在三维空间中自动生成高精度的行人轨迹。随后，这些三维跟踪结果借助相机参数被反投影至每一路RGB视角，形成密集的二维边界框与身份标注。最后，人工仅需对三维轨迹中的ID切换与误检进行修正，大幅降低了传统逐帧标注的成本与时间。数据集在五个差异化环境（零售、大堂、工业、咖啡馆、办公室）中采集，总计约9.6小时视频，包含超过半个百万帧级别的逐帧标注。

特点

该数据集拥有迄今为止最大规模的多相机多行人密集标注，涵盖576分钟视频与23台同步相机，远超现有同类基准。其核心特点在于标注的稠密性与跨视角一致性——每一帧、每一视角均提供精确的边界框与全局统一的身份ID，无稀疏采样。得益于自动标注与人工校验相结合的策略，标注质量极高，在验证集上达到100%的IDF1与99.9%的MOTA。此外，数据集的场景多样性显著，包含零售、办公等真实拥挤环境，视角高度重叠，能够有效评估算法在严重遮挡与复杂背景下的鲁棒性。

使用方法

MMPTRACK适用于多相机多目标跟踪与行人重识别两大任务的训练与评估。对于跟踪任务，研究者可直接使用提供的2D边界框与ID进行单视角或多视角跟踪器的训练，或利用三维俯视图标注进行端到端的多相机融合跟踪。数据集已划分训练、验证与测试集，便于标准化比较。对于重识别任务，可基于各视角裁剪的行人图像进行模型微调，以学习跨视角的判别性特征。此外，数据集还可作为多视角行人检测与三维姿态估计的辅助基准，通过投影关系生成伪三维标注，拓展其应用边界。

背景与挑战

背景概述

多摄像头多目标跟踪（Multi-Camera Multi-Object Tracking, MCMOT）在计算机视觉领域占据重要地位，尤其在无摩擦结账、自动驾驶等对跟踪精度要求严苛的应用场景中，单目多目标跟踪系统常因遮挡问题在拥挤杂乱环境下失效。为突破这一瓶颈，微软研究院的Xiaotian Han、Quanzeng You等研究人员于2021年提出了MMPTRACK数据集。该数据集依托自动标注系统，在五个差异显著的室内环境（零售店、工业区、大厅、办公室、咖啡馆）中，利用23台经过校准的Azure Kinect深度与RGB相机，采集了约576分钟的高质量视频，并提供了逐帧的密集标注，包括边界框与人员身份标识。MMPTRACK的规模远超现有同类数据集（如WILDTRACK、DukeMTMC），其核心贡献在于通过高效的自动标注流程（仅需传统方法1/800的成本）构建了迄今为止最大的多摄像头多人跟踪基准，为研究领域提供了可靠且具有挑战性的评估平台。

当前挑战

MMPTRACK数据集所面临的挑战主要源于两方面。在领域问题层面，多摄像头跟踪系统虽能缓解单目系统在拥挤环境中的遮挡难题，但现有方法在复杂场景下的性能仍远未达到实际应用需求——例如，基线跟踪器DMCT与VoxelTrack在测试集上的IDF1指标分别仅为74.1%和50.8%，表明跨摄像头身份一致性与跟踪鲁棒性亟待提升。此外，行人重识别（ReID）模型在杂乱背景下的表现亦不理想，零售环境中的mAP仅约33%，凸显了域间差异与数据稀缺的制约。在构建过程中，挑战则体现为多摄像头系统的标定复杂度、深度与RGB数据的时间同步难题，以及自动标注系统中偶发的轨迹身份切换与误检错误，尽管人工校正流程大幅降低了成本，但确保标注的绝对准确性仍需严谨的质量控制机制。

常用场景

经典使用场景

在多视角多目标跟踪研究领域，MMPTRACK数据集因其大规模、密集标注和多样化环境设置而成为评估和训练多摄像头多行人跟踪系统的标杆。该数据集涵盖零售店、工业区、大厅、咖啡馆和办公室五种真实场景，配备23台标定重叠的RGB-D摄像头，提供超过576分钟、每秒15帧的逐帧边界框与身份标注。研究者常利用其高重叠视角与3D空间标注，验证基于深度图融合、顶视图检测或3D姿态估计的跟踪算法在拥挤遮挡环境下的鲁棒性，尤其适用于评估跨摄像头身份保持与轨迹关联的精度。

解决学术问题

MMPTRACK核心解决了多摄像头跟踪领域因数据匮乏而难以评估算法泛化能力的困境。此前数据集如DukeMTMC缺乏视角重叠，WILDTRACK标注稀疏，而MMPTRACK通过自动化标注系统生成密集、高质量标签，使研究者能系统分析遮挡、光照变化和视角差异对跟踪性能的影响。它揭示了现有模型在拥挤场景中ID切换频繁、检测假阳率高等问题，并证明了领域自适应训练可显著提升精度，为开发更鲁棒的跨摄像头数据关联与重识别模型提供了关键基准。

衍生相关工作

MMPTRACK的发布催生了多项经典工作，包括基于顶视图热图融合的实时跟踪器DMCT及其变体，这些方法通过将多摄像头2D检测投影至地平面并训练YOLOv5顶视图检测器，显著提升了跟踪的IDF1与MOTA指标。另一项代表性工作是VoxelTrack，它利用3D姿态估计与多视角融合实现行人跟踪，验证了在MMPTRACK上进行虚拟微调的有效性。此外，该数据集还被用于评估和微调FastReID等重识别模型，推动了在拥挤场景下判别性特征学习的研究，并启发了自动化标注系统在生成大规模多摄像头标注中的应用范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集