VT-MOT

Name: VT-MOT
Creator: 智能计算与信号处理教育部重点实验室, 安徽大学, 公共安全与应急管理学院, 安徽理工大学, 合肥 231131, 中国
Published: 2024-08-02 09:29:43
License: 暂无描述

arXiv2024-08-02 更新2024-08-06 收录

下载链接：

https://github.com/wqw123wqw/PFTrack

下载链接

链接失效反馈

官方服务：

资源简介：

VT-MOT数据集由安徽大学的智能计算与信号处理教育部重点实验室创建，是一个大规模的可见光与热红外视频基准，专门用于多目标跟踪研究。该数据集包含582对视频序列，总计401k帧对，采集自无人机、监控摄像头和手持设备，具有高度的时空对齐和3.99百万个高质量标注框。数据集的创建过程中，专业人员进行了逐帧的时空对齐和双重检查的标注工作，确保了数据的高质量和密集性。VT-MOT数据集的应用领域主要集中在复杂环境下的多目标跟踪，旨在通过融合可见光与热红外数据的优势，提高跟踪算法的鲁棒性和准确性。

The VT-MOT dataset, developed by the Key Laboratory of Intelligent Computing and Signal Processing of the Ministry of Education, Anhui University, is a large-scale visible light and thermal infrared video benchmark dedicated to multi-object tracking research. The dataset consists of 582 pairs of video sequences, totaling 401k frame pairs, collected from drones, surveillance cameras, and handheld devices, and features high-precision spatiotemporal alignment as well as 3.99 million high-quality annotated bounding boxes. During the dataset construction process, professionals conducted frame-by-frame spatiotemporal alignment and double-checked annotation work to guarantee the high quality and density of the dataset. The application scope of the VT-MOT dataset mainly centers on multi-object tracking in complex environments, with the goal of enhancing the robustness and accuracy of tracking algorithms by integrating the respective advantages of visible light and thermal infrared data.

提供机构：

智能计算与信号处理教育部重点实验室, 安徽大学, 公共安全与应急管理学院, 安徽理工大学, 合肥 231131, 中国

创建时间：

2024-08-02

原始信息汇总

PFTrack 数据集概述

数据集介绍

PFTrack 是一个大规模的可见光-热红外多目标跟踪视频数据集，名为 VT-MOT。该数据集具有以下主要特点：

大规模和高多样性：包含 582 对视频序列，401k 帧对，来自监控、无人机和手持平台。
跨模态对齐精度高：由专业人员进行逐帧的空间和时间对齐。
密集和高品质标注：包含 3.99 百万个标注框，由专业人员标注和复核，涵盖重遮挡和目标重新捕获等挑战。

数据集贡献

构建了一个大规模的可见光-热红外多目标跟踪数据集 VT-MOT，适用于全天候和全天时研究。
对所有视频序列进行了手动时空对齐，确保两种模态的高质量对齐，并提供了密集和高品质的标注。
提出了一种简单而有效的渐进融合跟踪框架，有效融合了两种模态的时间和互补信息。

数据集结构

数据集的结构如下：

${PFTrack_ROOT} |-- data -- |-- VTMOT -- |--- train | |--- video1 | | |--- visible | | | |---0000001.jpg | | | |---0000002.jpg | | | |---... | | |--- infrared | | | |---0000001.jpg | | | |---0000002.jpg | | | |---... | | |--- gt | | | |--- gt.txt | | |--- seqinfo | |--- video2 | |--- ... |--- test | |--- video1 | | |--- visible | | | |---0000001.jpg | | | |---0000002.jpg | | | |---... | | |--- infrared | | | |---0000001.jpg | | | |---0000002.jpg | | | |---... | | |--- gt | | | |--- gt.txt | | |--- seqinfo | |--- video2 | |--- ... ---| annotations |--- train.json --- test.json

数据集使用

训练

python -u main.py tracking --modal RGB-T --save_all --exp_id VTMOT_PFTrack --dataset mot_rgbt --dataset_version mot_rgbt --load_model "./exp/tracking/VTMOT_RGBT/***.pth" --batch_size 12 --pre_hm --ltrb_amodal --same_aug --hm_disturb 0.05 --lost_disturb 0.4 --fp_disturb 0.1 --gpus 0

测试

python test_rgbt.py tracking --modal RGB-T --test_mot_rgbt True --exp_id VTMOT_PFTrack --dataset mot_rgbt --dataset_version mot_rgbt --pre_hm --ltrb_amodal --track_thresh 0.4 --pre_thresh 0.5 --load_model ./exp/tracking/VTMOT_RGBT/model.pth

评估

cd trackeval python run_mot_challenge.py

搜集汇总

数据集介绍

构建方式

VT-MOT数据集的构建方式体现了对多目标跟踪任务的深入理解和精心设计。该数据集包含了582对视频序列，共计401,000帧，这些数据来源于监控、无人机和手持设备等多种平台。为了确保跨模态数据的高精度对齐，研究团队邀请了专业人员进行逐帧的空间和时间对齐。此外，数据集还提供了399万个高质量的标注框，这些标注经过专业人员的双重检查，涵盖了重叠遮挡和目标重新捕获等复杂场景。

使用方法

VT-MOT数据集的使用方法多样，适用于多种多目标跟踪算法的训练和评估。研究者可以通过提供的训练集和测试集进行模型的训练和验证。数据集的高质量标注和跨模态对齐特性，使得其在开发和测试融合可见光和热红外数据的多目标跟踪算法时尤为重要。此外，数据集的开源性质也促进了学术界和工业界的广泛应用和进一步研究。

背景与挑战

背景概述

在计算机视觉领域，多目标跟踪（MOT）因其工程实用性在现实场景中的重要性而备受关注。近年来，尽管在MOT方面取得了显著进展，但其在低光照、雾霾等复杂环境中的应用仍面临巨大挑战。为应对这些挑战，整合可见光与热红外数据成为一种有前景的解决方案。可见光图像提供丰富的颜色和纹理信息，但在低光照和雾霾条件下数据质量较差；相反，热红外数据在这些环境中表现良好，但缺乏颜色和纹理信息。VT-MOT数据集由安徽大学的Yabin Zhu等人于2024年创建，旨在通过大规模的可见光-热红外视频基准推动MOT研究。该数据集包含582对视频序列，401k帧对，涵盖监控、无人机和手持设备平台，具有高精度的跨模态对齐和密集的高质量标注，包含399万个标注框，特别关注重遮挡和目标重新捕获的挑战。

当前挑战

VT-MOT数据集的构建面临多重挑战。首先，数据集需解决在复杂环境中的多目标跟踪问题，特别是在低光照和雾霾条件下，如何有效融合可见光与热红外数据以提升跟踪性能。其次，构建过程中需确保跨模态数据的高精度时空对齐，这需要专业人员逐帧进行对齐操作，增加了数据处理的复杂性和成本。此外，数据集的标注工作量大，需确保标注的密集性和高质量，以支持深度网络的训练和算法性能的准确评估。最后，数据集的多平台采集和多样化场景增加了算法的泛化能力和鲁棒性要求，推动了可见光-热红外多目标跟踪技术的发展。

常用场景

经典使用场景

VT-MOT数据集在多目标跟踪（MOT）领域中具有经典应用场景，特别是在可见光和热红外数据的互补性利用方面。该数据集通过提供大规模、高多样性的视频序列对，支持在复杂环境下的多目标跟踪研究。其帧间空间和时间对齐的高精度特性，使得研究人员能够开发出能够有效融合两种模态信息的跟踪框架，从而在低光照、雾霾等恶劣条件下提升跟踪性能。

解决学术问题

VT-MOT数据集解决了多目标跟踪领域中常见的学术研究问题，特别是在复杂环境下的跟踪鲁棒性问题。通过提供高质量的密集标注和精确的模态对齐，该数据集为研究者提供了一个强有力的基准，推动了可见光和热红外数据融合技术的发展。这不仅提升了跟踪算法的性能，还为多模态数据融合在计算机视觉任务中的应用提供了新的研究方向。

实际应用

VT-MOT数据集在实际应用中具有广泛的应用场景，特别是在安防监控、无人机监控和手持设备监控等领域。由于其数据来源多样，包括无人机、监控摄像头和手持设备，该数据集能够支持在不同平台和环境下的多目标跟踪应用。通过利用可见光和热红外数据的互补性，VT-MOT数据集为开发适应各种复杂环境的跟踪算法提供了宝贵的资源。

数据集最近研究