CRTrack

Name: CRTrack
Creator: 华中科技大学
Published: 2024-12-24 02:58:39
License: 暂无描述

arXiv2024-12-24 更新2024-12-25 收录

下载链接：

https://github.com/chen-si-jia/CRMOT

下载链接

链接失效反馈

官方服务：

资源简介：

CRTrack数据集是由华中科技大学构建的一个跨视图引用多目标跟踪基准，基于CAMPUS和DIVOTrack数据集，包含13个不同场景和221条语言描述。数据集大小为82K帧，包含344个对象，主要用于解决单视图下对象外观易不可见的问题。数据集的创建过程包括从对象的不变属性中进行标注，并使用GPT-4o生成语言描述，经过人工校对确保准确性。该数据集主要应用于计算机视觉领域，旨在提升跨视图多目标跟踪任务的准确性和一致性。

The CRTrack dataset is a cross-view reference multi-object tracking benchmark constructed by Huazhong University of Science and Technology. Based on the CAMPUS and DIVOTrack datasets, it includes 13 distinct scenarios and 221 language descriptions, with a total of 82K frames and 344 objects. This dataset mainly addresses the problem that object appearances are easily unobservable under single-view settings. The dataset construction process involves annotating based on the invariant attributes of objects, generating language descriptions using GPT-4o, and conducting manual proofreading to ensure accuracy. Primarily applied in the field of computer vision, this dataset aims to improve the accuracy and consistency of cross-view multi-object tracking tasks.

提供机构：

华中科技大学

创建时间：

2024-12-24

原始信息汇总

Cross-view Referring Multi-Object Tracking（CRMOT）数据集

简介

CRMOT（Cross-view Referring Multi-Object Tracking）是一个新的任务，旨在通过多视角获取物体的外观，避免在单视角下物体外观不可见的问题。该任务要求准确跟踪与语言描述匹配的物体，并保持每个跨视角下的物体身份一致性。

数据集构建

数据来源：基于CAMPUS和DIVOTrack数据集构建。
场景数量：13个不同场景。
语言描述：221个语言描述。

数据结构

数据集的结构如下：

数据准备

下载链接：数据集可通过以下链接下载 [Baidu],code:hust。
数据处理：
- 运行src/dataset_util/gen_labels_dataset.py生成datasets/CRTrack/CRTrack_In-domain/labels_with_ids文件夹。
- 运行src/dataset_util/convert_cross_view.py生成datasets/CRTrack/CRTrack_In-domain/labels_with_ids_cross_view文件夹。
- 修改src/dataset_util/set_CRTracker_train.py中的路径，并运行该文件。
- 生成语言标签：
  - CRTrack In-domain：运行src/dataset_util/gen_In-domain_gt_train.py和src/dataset_util/gen_In-domain_gt_test.py。
  - CRTrack Cross-domain：运行src/dataset_util/gen_Cross-domain_gt_test.py。

训练与推理

模型下载：预训练模型和训练模型可通过以下链接下载 [Baidu],code:hust。
训练：运行bash experiments/train.sh。
推理：运行bash experiments/test.sh。

评估

环境配置：在Windows系统上进行评估，需安装MATLAB 2020a。
评估流程：
- 压缩推理结果文件夹并解压到指定目录。
- 运行inference_convert.py和gt_convert.py处理推理结果和GT文件夹。
- 运行cv_test/prepare_cross_view_eval.py整合推理结果和地面真实标签。
- 运行MOT/evalMOT.py进行评估。
- 统计CVRIDF1和CVRMA指标。

致谢

代码部分参考了以下工作：

搜集汇总

数据集介绍

构建方式

CRTrack数据集的构建基于DIVOTrack和CAMPUS两个跨视图多目标跟踪数据集，通过引入语言描述来增强其应用场景。具体而言，该数据集包含了13个不同的场景，共计82,000帧图像和344个目标对象，并提供了221条精细化的语言描述。为了生成这些语言描述，研究团队首先对目标对象的属性进行了标注，包括头饰颜色、服装样式、手持物品等不变属性。随后，利用GPT-4o大语言模型根据这些属性生成语言描述，并通过人工校对确保描述的准确性。

使用方法

CRTrack数据集适用于跨视图多目标跟踪任务，尤其是结合语言描述的复杂场景。研究者可以使用该数据集训练和评估跨视图多目标跟踪模型，特别是那些需要处理语言描述与视觉信息相结合的任务。数据集提供了详细的标注和语言描述，研究者可以通过这些信息进行模型的训练和测试。此外，数据集还提供了特定的评估指标，如CVRIDF1和CVRMA，用于衡量模型在跨视图多目标跟踪任务中的表现。

背景与挑战

背景概述

CRTrack数据集由华中科技大学Sijia Chen、En Yu和Wenbing Tao等人于2024年提出，旨在推动跨视图引用多目标跟踪（CRMOT）任务的研究。该数据集基于CAMPUS和DIVOTrack数据集构建，包含13个不同场景和221个语言描述，涵盖82K帧和344个目标。CRMOT任务通过引入跨视图信息，解决了单视图下目标外观易被遮挡的问题，提升了目标跟踪的准确性和身份一致性。CRTrack的提出不仅为多目标跟踪领域提供了新的研究方向，还为跨视图场景下的视觉语言任务提供了基准。

当前挑战

CRTrack数据集面临的挑战主要集中在两个方面。首先，跨视图引用多目标跟踪任务本身具有较高的复杂性，需要在多个视图中准确匹配目标并保持其身份一致性，尤其是在目标外观部分遮挡的情况下。其次，数据集构建过程中，语言描述的生成和标注需要高度精确，以确保语言描述与目标的匹配度。此外，数据集中的长序列跟踪任务对模型的时序处理能力提出了更高的要求，尤其是在跨域测试中，模型需要应对未见过的场景和语言描述，进一步增加了任务的难度。

常用场景

经典使用场景

CRTrack数据集的经典使用场景主要集中在跨视图多目标跟踪任务中，特别是在需要通过语言描述来引导跟踪器识别和追踪特定对象的场景。该数据集通过引入多视图信息，解决了单视图下对象外观易被遮挡或不可见的问题，从而提升了跟踪的准确性和鲁棒性。

解决学术问题

CRTrack数据集解决了传统单视图多目标跟踪（RMOT）中对象外观易被遮挡或不可见的问题。通过引入跨视图信息，该数据集使得跟踪器能够从多个视角获取对象的完整外观，从而避免了因单视图遮挡导致的错误匹配。这一创新不仅提升了跟踪的准确性，还为多模态视觉语言任务提供了新的研究方向。

实际应用

CRTrack数据集在实际应用中具有广泛的前景，特别是在视频监控、自动驾驶和智能交通系统等领域。通过跨视图的多目标跟踪，系统能够更准确地识别和追踪特定对象，如在复杂的交通场景中追踪特定车辆或行人，或在监控系统中识别特定穿着或携带物品的个体。

数据集最近研究