OCTrackB

Name: OCTrackB
Creator: 天津大学, 深圳先进技术研究院, 香港城市大学, 南卡罗来纳大学
Published: 2024-07-19 13:58:01
License: 暂无描述

arXiv2024-07-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.14047v1

下载链接

链接失效反馈

官方服务：

资源简介：

OCTrackB是由天津大学等机构创建的一个大规模综合基准数据集，旨在为开放语料库多对象跟踪（OCMOT）问题提供标准评估平台。该数据集包含892个类别，其中包括653个基础类别和239个新颖类别，涵盖了各种现实世界应用中的对象，如交通工具、动物和家用物品等。数据集的创建遵循了类别丰富、样本丰富和语义兼容的原则，确保了数据集的多样性和平衡性。OCTrackB主要用于评估和推动开放场景下的多对象跟踪技术，特别是在无需预定义类别列表的情况下进行对象识别和跟踪。

OCTrackB is a large-scale comprehensive benchmark dataset developed by Tianjin University and other institutions, aiming to provide a standardized evaluation platform for the open-corpus multi-object tracking (OCMOT) task. This dataset consists of 892 categories, including 653 base categories and 239 novel categories, covering objects across various real-world applications such as vehicles, animals, and household items. The dataset is constructed adhering to the principles of rich category diversity, ample sample volume, and semantic compatibility, ensuring the overall diversity and balance of the dataset. OCTrackB is primarily designed to evaluate and advance multi-object tracking technologies in open scenarios, especially for object recognition and tracking without a predefined category list.

提供机构：

天津大学, 深圳先进技术研究院, 香港城市大学, 南卡罗来纳大学

创建时间：

2024-07-19

搜集汇总

数据集介绍

构建方式

OCTrackB数据集的构建方式是通过整合两个大型视频数据集TAO和LV-VIS，并遵循类别丰富、样本丰富和语义兼容的原则。首先，根据LVIS的基类和新型类划分模式进行数据选择，然后使用贪婪算法确保每个类别至少包含两个视频，以实现类别的多样性和平衡。其次，再次使用贪婪算法将尽可能多的轨道分配给每个类别，同时保持视频总数不变。最终，OCTrackB收集了1,635个视频，其中包括496个包含新型类别对象和1,600个包含基类别的视频。

使用方法

OCTrackB数据集的使用方法包括定位、关联和识别任务。首先，使用变形DETR网络进行目标定位，该网络不区分对象类别，仅通过二进制交叉熵损失估计区域候选是否为感兴趣对象。其次，使用FlanT5-base语言模型进行目标识别，将候选对象的视觉特征映射到生成模型的输入空间，并通过生成编码器和解码器进行处理。最后，使用两阶段训练策略训练对象相似性学习模型进行关联，第一阶段使用静态图像进行数据幻觉策略学习，第二阶段使用TAO训练集中的原始视频进行自监督策略学习。

背景与挑战

背景概述

在多目标跟踪（MOT）领域，随着技术的发展，从特定类别到通用类别，再到开放世界/词汇设置，MOT的发展趋势日益实用化。然而，现有的开放词汇多目标跟踪（OVMOT）方法在测试阶段需要预定义的类别列表，这在实际应用中获取较为困难。为了解决这个问题，本文提出了一个新的问题，即开放语料库多目标跟踪（OCMOT），将对象识别任务视为生成问题，不再需要预定义的类别列表。为了研究OCMOT问题，构建了一个大规模、全面的基准数据集OCTrackB，为OCMOT问题提供了一个标准的评估平台。与之前的基准数据集相比，OCTrackB具有更多样化和平衡的基/新类别，以及丰富的评估视频，具有较少的偏差。此外，还提出了一种新的多粒度识别指标，以更好地评估OCMOT中的生成对象识别。通过广泛的基准评估，报告并分析了各种最先进方法的性能，这证明了OCMOT的合理性，以及OCTrackB的有用性和优势。

当前挑战

OCTrackB数据集的构建面临的主要挑战包括：1) 所解决的领域问题（例如：OCMOT解决的领域问题是开放语料库多目标跟踪）的挑战，即如何在没有预定义类别列表的情况下实现对象的定位、关联和识别；2) 构建过程中所遇到的挑战，包括如何收集和注释大量包含多样化和平衡类别的视频数据，以及如何设计新的多粒度识别指标来解决语义歧义问题。

常用场景

经典使用场景

OCTrackB数据集最经典的使用场景是用于评估开放语料库多目标跟踪（OCMOT）算法的性能。该数据集提供了一个标准化的评估平台，允许研究人员在各种类别和场景中测试和比较他们的算法。通过在OCTrackB上进行实验，研究者可以了解其算法在不同类别和场景下的表现，并对其进行优化。

解决学术问题

OCTrackB数据集解决了开放语料库多目标跟踪（OCMOT）问题。在现实世界中，视频中的类别是多样化的，远不止人类和车辆。OCTrackB提供了丰富的类别和样本，允许算法在不依赖预定义类别列表的情况下进行训练和测试。这使得算法能够更好地适应开放场景，并在实际应用中取得更好的效果。

实际应用

OCTrackB数据集在实际应用场景中具有广泛的应用前景。例如，在视频监控中，OCTrackB可以帮助算法识别和跟踪各种类型的对象，从而提高监控的准确性和效率。在自动驾驶中，OCTrackB可以帮助算法识别和跟踪车辆、行人等对象，从而提高自动驾驶的安全性。此外，OCTrackB还可以应用于其他领域，如野生动物监测、体育赛事分析等。

数据集最近研究