TrafficMOT

Name: TrafficMOT
Creator: 剑桥大学
Published: 2023-12-01 02:59:56
License: 暂无描述

arXiv2023-12-01 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.18839v1

下载链接

链接失效反馈

官方服务：

资源简介：

TrafficMOT是一个专为复杂交通场景中多目标跟踪设计的新型基准数据集，由剑桥大学创建。该数据集包含2102个视频，覆盖印度多个城市的交通情况，具有高密度和多样性的交通场景。数据集通过固定CCTV摄像头收集，包含多种天气条件和光照情况，旨在解决现有数据集在模拟真实交通场景复杂性方面的不足。TrafficMOT不仅提供大量对象类别，还捕捉了交通场景中的复杂动态和拥堵情况，适用于推动交通监控和多目标跟踪技术的发展。

TrafficMOT is a novel benchmark dataset tailored for multi-object tracking in complex traffic scenarios, developed by the University of Cambridge. It comprises 2102 video clips covering traffic conditions across multiple cities in India, featuring high-density and highly diverse traffic scenes. Collected via fixed CCTV cameras, the dataset includes diverse weather conditions and lighting scenarios, aiming to address the shortcomings of existing datasets in simulating the complexity of real-world traffic scenarios. In addition to providing a wide range of object categories, TrafficMOT also captures the intricate dynamics and congestion within traffic scenarios, making it suitable for advancing the development of traffic monitoring and multi-object tracking technologies.

提供机构：

剑桥大学

创建时间：

2023-12-01

搜集汇总

数据集介绍

构建方式

TrafficMOT数据集源于对印度八座城市固定闭路电视监控视频的采集，涵盖了北部、南部、东部、西部及中部地区多样化的城市与郊区交通场景。总计包含2102段视频，每段视频由30帧构成，分辨率跨越352×288至1920×1080，以模拟真实监控系统的异构性。在标注环节，78段视频被完全标注，每帧均提供实例边界框、类别标签及跨帧跟踪标识；其余2024段视频仅标注首帧，从而形成8689个未标注帧，为半监督学习研究提供了天然试验场。标注工作由专业公司执行，并经过多轮质量审核与迭代优化，确保标注精度。数据集按视频级别划分为训练集与测试集，其中51段全标注视频用于测试，27段全标注视频与首帧标注视频共同构成训练集。

使用方法

TrafficMOT支持全监督、半监督及零样本三种主流多目标跟踪范式。在全监督设置下，研究者可利用27段全标注视频与2024段首帧标注视频训练检测-跟踪联合模型，评估指标包括mAP、mAP50、IDF1及MOTA。半监督设置则引入8689个未标注帧，通过伪标签策略（如STAC、SoftTeacher、MotionPrior）结合时序一致性校验（基于IoU与类别一致性）生成跟踪伪标签，以提升模型泛化能力。零样本设置中，可调用Tracking Anything Model（TAM）以首帧掩码、文本提示或两者结合的方式引导跟踪，但实验结果揭示其在复杂场景下的局限性。数据集官方划分确保训练与测试集分离，便于公平比较。代码基于MMTracking框架实现，预训练权重与超参数配置已公开，支持快速复现。

背景与挑战

背景概述

多目标跟踪（MOT）在交通视频分析中占据核心地位，是推动智能交通系统发展的关键技术。然而，现有交通MOT数据集普遍存在类别单一、实例稀疏、场景复杂度不足等问题，难以真实反映现实交通场景中的密集车流、遮挡、光照变化及恶劣天气等挑战。为弥补这一空白，剑桥大学Lihao Liu等人联合微软与上海人工智能实验室，于2023年发布了TrafficMOT数据集。该数据集采集自印度八个城市的固定闭路电视摄像头，包含2102段视频，涵盖10类交通参与者（如拖拉机、电动三轮车、行人等），平均每帧包含22.8个目标实例，远超此前数据集的密度水平。TrafficMOT的提出为复杂交通场景下的多目标跟踪研究提供了更具挑战性的基准，推动了算法在密集、多类、动态环境中的鲁棒性评估。

当前挑战

TrafficMOT所解决的领域问题在于：现有方法在密集交通场景中常因目标重叠、类别相似性高（如电动三轮车与自动人力车、自行车与摩托车）而导致跟踪失败。构建过程中，数据集面临多重挑战：首先，视频来源跨八个城市，分辨率从352×288到1920×1080不等，需统一预处理；其次，78段全标注视频需逐帧标注边界框与跟踪ID，而剩余2024段视频仅标注首帧，导致8689帧无标签，增加了半监督学习的难度；此外，专业标注公司需经多轮质控迭代以确保标注质量。实验表明，即使先进的全监督方法（如ByteTrack）在IDF1上仅达0.637，零样本基础模型TAM亦难以准确识别类别，凸显了数据集的固有复杂性。

常用场景

经典使用场景

在交通视频分析领域，多目标跟踪（MOT）是智能交通系统（ITS）的核心技术之一，旨在同时检测并追踪视频序列中多个目标的运动轨迹。TrafficMOT数据集专为复杂交通场景设计，其经典使用场景涵盖密集车流中的多类别目标跟踪，例如在包含卡车、拖拉机、电动三轮车、自行车及行人等十类目标的拥挤交叉路口，算法需应对严重遮挡、光照变化、天气干扰（如雾霾与夜间低照度）以及目标间高度相似性等挑战。该数据集通过提供每帧平均22.8个实例的高密度标注，模拟了真实城市交通中车辆交织、非机动车与行人混杂的复杂动态，成为评估跟踪算法鲁棒性与精度的严苛基准。

解决学术问题

TrafficMOT直面现有交通MOT数据集类别单一、实例稀疏及场景简化等核心局限，系统性地解决了多目标跟踪在真实复杂交通环境中的三大研究难题：其一，通过引入十类细粒度目标（如区分电动三轮车与自动人力车），推动了类间相似性判别与细粒度分类算法的突破；其二，高密度场景（每帧超40个实例）迫使研究者攻克密集遮挡下的轨迹关联与身份保持问题；其三，跨城市、多天气条件（晴天、雾天、夜间）的数据分布，促使半监督与零样本学习方法在标注稀疏场景下的泛化能力提升。该数据集的意义在于为ITS领域提供了首个兼具大规模、多类别与高复杂度的标准化评测平台，其发布直接催化了基于伪标签的半监督跟踪策略及基础模型在交通场景中的适应性研究。

实际应用

在实际应用中，TrafficMOT推动了智能交通监控系统的技术落地，尤其在以下场景展现显著价值：城市交通管理中心可利用基于该数据集训练的模型，实时分析交叉口车流密度与车辆类型分布，为信号灯动态配时提供数据支撑；交通事故预防系统通过持续跟踪行人与非机动车在重型车辆周围的运动轨迹，提前预警潜在碰撞风险；高速公路监控中，算法能精准追踪雾天或夜间低照度下的车辆变道行为，辅助异常事件检测。此外，该数据集支持对电动三轮车、拖拉机等区域特色交通工具的识别，助力发展中国家优化非机动车与机动车混行路段的治理策略，从而提升整体道路安全与通行效率。

数据集最近研究