MOT20

Hugging Face2026-05-30 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/Lekim89/MOT20

下载链接

链接失效反馈

官方服务：

资源简介：

MOT20是一个用于单摄像头多目标跟踪（MOT）和行人检测的基准数据集，专注于高度拥挤的真实世界场景，如拥挤的广场、室内火车站、体育场出口和步行街。该数据集旨在对MOT方法在密集人群场景中进行压力测试，与早期MOTChallenge版本相比，视频序列较少但注释密度更高。数据集包含8个具有挑战性的视频序列：4个训练序列和4个测试序列。训练集总计有8,931帧图像，包含2,332个目标轨迹和1,336,920个边界框，平均每帧有149.7个边界框；测试集总计有4,479帧图像，包含1,501个目标轨迹和765,465个边界框，平均每帧有170.9个边界框。数据集结构遵循标准的MOTChallenge文件夹布局，每个序列目录包含图像帧文件夹、公共检测文件、训练集真实标注文件和序列元数据文件。标注格式为标准MOTChallenge逗号分隔文本格式。该数据集适用于多目标跟踪、密集场景下的行人跟踪、基于检测的跟踪研究、遮挡严重的跟踪研究、重识别辅助的跟踪以及MOT基准转换和评估流程等任务，主要用于多目标跟踪的学术研究、在非常拥挤场景下对MOT算法进行基准测试、研究遮挡和密集行人运动、开发基于检测的跟踪流程以及训练和验证行人跟踪系统。需要注意的是，测试集的真实标注未包含在公开发布的数据集中，官方评估应通过MOTChallenge平台进行，数据集聚焦于密集行人场景，并不代表所有跟踪场景，高人群密度和遮挡使得身份保持尤其困难。

MOT20 is a benchmark dataset for single-camera multi-object tracking (MOT) and pedestrian detection, focusing on highly crowded real-world scenes such as crowded squares, indoor train stations, stadium exits, and pedestrian streets. It is designed to stress-test MOT methods in dense crowd scenarios, with fewer video sequences but significantly higher annotation density compared to earlier MOTChallenge versions. The dataset consists of 8 challenging video sequences: 4 for training and 4 for testing. The training set totals 8,931 image frames, containing 2,332 target trajectories and 1,336,920 bounding boxes, with an average of 149.7 bounding boxes per frame; the test set totals 4,479 image frames, containing 1,501 target trajectories and 765,465 bounding boxes, with an average of 170.9 bounding boxes per frame. The dataset structure follows the standard MOTChallenge folder layout, with each sequence directory typically including an image frame folder, public detection files, ground truth annotation files for the training set, and a sequence metadata file. The annotation format is the standard MOTChallenge comma-separated text format. The dataset is suitable for tasks such as multi-object tracking, pedestrian tracking in dense scenes, detection-based tracking research, tracking under severe occlusion, re-identification-assisted tracking, and MOT benchmark conversion and evaluation workflows. It is primarily used for academic research in multi-object tracking, benchmarking MOT algorithms in extremely crowded scenarios, studying occlusion and dense pedestrian movement, developing detection-based tracking pipelines, and training and validating pedestrian tracking systems. It should be noted that ground truth annotations for the test set are not included in the publicly released dataset, and official evaluation should be conducted through the MOTChallenge platform. The dataset focuses on dense pedestrian scenes and does not represent all tracking scenarios, with high crowd density and occlusion making identity preservation particularly challenging.

创建时间：

2026-05-27

原始信息汇总

数据集概述

MOT20 是一个用于单摄像头多目标跟踪（MOT） 和行人检测的基准数据集，专注于高密度拥挤的真实世界场景。该数据集由 MOTChallenge 发布，旨在评估多目标跟踪系统在极高人群密度下的性能。

数据集名称: MOT20
任务: 多目标跟踪、行人跟踪、行人检测
领域: 拥挤的公共行人场景
数据类型: 带有标注和公共检测结果的图像序列
原始基准: MOTChallenge MOT20
论文: MOT20: A benchmark for multi object tracking in crowded scenes
许可协议: Creative Commons Attribution-NonCommercial-ShareAlike 3.0 (cc-by-nc-sa-3.0)

支持的任务

该数据集可用于以下研究和开发：

多目标跟踪 (MOT)
多行人跟踪
基于检测的跟踪研究
拥挤场景下的行人检测
高遮挡场景下的跟踪研究
重识别辅助跟踪
MOT 基准转换和评估管线

数据集结构

数据集遵循官方的 MOTChallenge 文件夹布局：

MOT20/ ├── train/ │ ├── MOT20-01/ │ ├── MOT20-02/ │ ├── MOT20-03/ │ └── MOT20-05/ ├── test/ │ ├── MOT20-04/ │ ├── MOT20-06/ │ ├── MOT20-07/ │ └── MOT20-08/ └── README.md

每个序列目录包含以下内容：

MOT20-XX/ ├── img1/ # 视频帧图像文件 ├── det/ # 公共检测结果 │ └── det.txt ├── gt/ # 真实标注（仅训练集） │ └── gt.txt └── seqinfo.ini # 序列元数据

数据集划分

训练序列

训练集包含4个视频序列，总计：

帧数: 8,931
时长: 357 秒
轨迹数: 2,332
边界框数: 1,336,920
平均密度: 149.7 个框/帧

序列	FPS	分辨率	长度 (帧)	轨迹数	边界框数	密度 (框/帧)	描述
MOT20-01	25	1920x1080	429	90	26,647	62.1	拥挤的室内火车站
MOT20-02	25	1920x1080	2,782	296	202,215	72.7	拥挤的室内火车站
MOT20-03	25	1173x880	2,405	735	356,728	148.3	夜间体育场出口，高视角
MOT20-05	25	1654x1080	3,315	1,211	751,330	226.6	夜间拥挤的广场

测试序列

测试集包含4个视频序列，总计：

帧数: 4,479
时长: 178 秒
轨迹数: 1,501
边界框数: 765,465
平均密度: 170.9 个框/帧

序列	FPS	分辨率	长度 (帧)	轨迹数	边界框数	密度 (框/帧)	描述
MOT20-04	25	1545x1080	2,080	728	371,525	178.6	夜间拥挤的广场
MOT20-06	25	1920x734	1,008	368	207,543	205.9	步行街场景
MOT20-07	25	1920x1080	585	126	41,096	70.2	拥挤的室内火车站
MOT20-08	25	1920x734	806	279	145,301	180.3	步行街场景

测试集的真实标注未公开发布，官方评估需通过 MOTChallenge 平台进行。

标注格式

MOT20 使用标准的 MOTChallenge 逗号分隔文本格式。

真实标注格式

训练标注存储在 gt/gt.txt 中，每行格式如下：

字段	描述
frame	帧索引，从1开始
id	物体身份标识ID
bb_left	边界框左坐标
bb_top	边界框顶坐标
bb_width	边界框宽度
bb_height	边界框高度
conf	真实标注的置信度标志
class	物体类别标签
visibility	可见度比例/标志

检测结果格式

公共检测结果存储在 det/det.txt 中，每行格式如下：

在检测文件中，id 通常设为 -1，最后的3D世界坐标字段可能未被使用。

评估指标

典型的 MOT 评估指标包括：

MOTA
MOTP
IDF1
HOTA
FP / FN / 身份切换次数
大部分被跟踪 / 大部分丢失的轨迹

推荐的评估工具为 TrackEval。官方基准提交应通过 MOTChallenge 平台进行。

预期用途

该数据集适用于：

多目标跟踪的学术研究
在极度拥挤场景下对 MOT 算法进行基准测试
研究遮挡、密集行人运动以及检测器在拥挤环境下的行为
开发基于检测的跟踪管线
训练和验证行人跟踪系统

限制与负责任使用

数据集专注于密集行人场景，不代表所有跟踪场景。
测试集真实标注未公开发布。
高密度和严重遮挡使得身份保持尤为困难。
数据集不能代表所有国家、摄像头类型、光照条件或不同人口特征的行人。
在现实监控或安全关键系统中部署前，需谨慎评估模型。

引用

请引用以下论文：

bibtex @article{dendorfer2020mot20, title={MOT20: A benchmark for multi object tracking in crowded scenes}, author={Dendorfer, Patrick and Rezatofighi, Hamid and Milan, Anton and Shi, Javen and Cremers, Daniel and Reid, Ian and Roth, Stefan and Schindler, Konrad and Leal-Taixe, Laura}, journal={arXiv preprint arXiv:2003.09003}, year={2020} }

搜集汇总

数据集介绍

构建方式

MOT20数据集的构建旨在应对高密度人群场景下多目标跟踪的挑战，其原始数据采集自真实世界中人群极度稠密的公共场所，如火车站、广场和体育场出口。相较于先前MOTChallenge版本，MOT20聚焦于更高密度的行人场景，精心挑选了8个视频序列，其中4个用于训练、4个用于测试。每个序列的标注严格遵循MOTChallenge协议，以逐帧图像结合文本文件的形式提供边界框、身份标识、可见性等信息。同时，数据集提供了统一的公共检测结果，便于研究者开展基于检测的跟踪研究，且序列未像MOT17那样按检测器重复组织，以简化使用流程。

使用方法

MOT20的使用方式主要围绕多目标跟踪与行人检测任务展开，研究者可通过Hugging Face平台利用snapshot_download函数便捷下载完整数据集。数据组织遵循标准MOTChallenge目录结构，每个序列文件夹内包含图像帧、公共检测文件及训练集的真实标注。借助pandas等库可轻松读取gt.txt和det.txt中的文本标注，支持直接按帧迭代图像以构建数据加载流水线。对于评估环节，推荐使用TrackEval等官方兼容工具计算MOTA、IDF1、HOTA等核心指标，而最终的基准测试提交需通过MOTChallenge线上平台完成，以确保结果的一致性与权威性。

背景与挑战

背景概述

MOT20是于2020年由慕尼黑工业大学、阿德莱德大学与苏黎世联邦理工学院等机构的研究者联合提出的多目标跟踪基准数据集，旨在挑战高密度人群场景下的行人跟踪与检测任务。与先前MOTChallenge系列的版本相比，该数据集聚焦于极为拥挤的真实世界环境，如火车站、广场与体育场出口等，序列中平均每帧包含149至227个行人框，密度远超以往。MOT20的推出填补了现有数据集在极度遮挡与密集交互场景下的空白，促使多目标跟踪算法从低密度场景向高鲁棒性、高复杂度的实际应用迈进，已成为评估拥挤场景跟踪系统性能的重要标杆。

当前挑战

MOT20所解决的领域核心挑战在于高密度人群环境下的多目标跟踪，包括严重遮挡导致的目标身份切换频繁、边界框错位与轨迹断裂，以及密集行人引发的检测假阳性与假阴性激增等问题。在数据集构建过程中，研究团队面临高精度标注的困难：需在每帧数十甚至上百个相互遮挡的行人中逐一标识并保持跨帧身份一致性，同时确保遮挡部分也能得到准确边界框。此外，由于测试集标注不公开，用户无法在本地下验证细粒度性能，需依赖官方评估平台，这增加了开发迭代的复杂性。

常用场景

经典使用场景

MOT20数据集专为评估和提升多目标跟踪算法在高密度拥挤场景下的鲁棒性而设计，其经典使用场景聚焦于单摄像头多行人跟踪任务。研究者通常利用该数据集的训练序列，结合提供的公开检测结果，构建基于检测跟踪（tracking-by-detection）的完整流水线，并在测试序列上通过MOTChallenge官方平台提交结果，以衡量模型在极端拥挤环境中的表现。这一过程不仅检验算法对密集行人、严重遮挡及快速运动的处理能力，还推动着跟踪系统向更高精度与更强鲁棒性的方向演进。

解决学术问题

MOT20数据集在学术研究中主要解决了高密度人群场景下多目标跟踪的若干核心挑战，包括因遮挡导致的身份切换频繁、检测器召回率下降以及轨迹碎片化等问题。该数据集通过提供包含每帧平均149至226个边界框的极度拥挤序列，迫使研究者设计能够有效建模遮挡关系、强化时序关联并融合外观与运动线索的算法。其引入推动了诸如Transformer架构与图神经网络在跟踪领域的应用，促使学界重新审视传统关联策略在高密度场景下的局限性，从而催生出一系列针对密集遮挡优化的跟踪范式。

实际应用

在实际应用中，MOT20数据集训练出的多目标跟踪模型被广泛部署于智慧城市中的视频监控系统，例如火车站台、广场出口及商业街等人员密集区域的实时人流监测与管理。这些模型能够持续追踪每个个体的运动轨迹，为人群密度估计、异常行为检测与公共安全预警提供关键支撑。此外，相关技术也融入零售业的顾客动线分析、体育赛事的运动表现评估以及自动化安防巡检等领域，展现出从学术研究到产业落地的显著转化价值。

数据集最近研究