ReaMOT Challenge

Name: ReaMOT Challenge
Creator: 华中科技大学
Published: 2025-05-27 01:55:19
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/chen-si-jia/ReaMOT

下载链接

链接失效反馈

官方服务：

资源简介：

ReaMOT Challenge是一个基于12个数据集构建的推理式多目标跟踪基准，旨在推动基于推理的多目标跟踪任务的研究。该数据集包含1156条具有推理特性的语言指令，423,359个图像-语言对和869个不同场景，分为三个推理难度等级：简单、中等和困难。数据集的创建过程包括手动预选、GPT辅助标注和手动标注与复查。ReaMOT Challenge旨在解决在复杂语言指令下进行多目标跟踪的挑战，并评估跟踪模型的推理能力。

The ReaMOT Challenge is a reasoning-based multi-object tracking benchmark constructed based on 12 datasets, aiming to advance research on reasoning-based multi-object tracking tasks. This dataset contains 1,156 reasoning-specific language instructions, 423,359 image-language pairs, and 869 distinct scenarios, which are categorized into three reasoning difficulty levels: easy, medium, and hard. The dataset creation process includes manual pre-selection, GPT-assisted annotation, as well as manual annotation and review. The ReaMOT Challenge aims to address the challenges of multi-object tracking under complex language instructions and evaluate the reasoning capabilities of tracking models.

提供机构：

华中科技大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

ReaMOT Challenge数据集的构建基于12个多目标跟踪数据集，通过结合GPT辅助标注与人工标注的方式，生成了1,156条具有推理特性的语言指令。标注过程分为三步：人工预选关键帧、GPT辅助分析目标特征、人工复核并生成最终语言指令。数据集按推理难度划分为三个等级（Easy、Medium、Hard），并设计了专门的评分规则量化指令复杂度。

特点

该数据集包含423,359个图像-语言对和869个多样化场景，语言指令涵盖空间位置、运动状态、社交行为等21类目标的复杂推理描述。其核心特点在于：（1）指令需深度推理而非表面特征匹配；（2）包含长时跟踪与瞬时目标场景；（3）目标数量从2至15+不等，且覆盖人、车、飞机等多类别。难度分级体系（1-6分）通过9类属性评分实现，如‘相对位置（1-3分）’、‘常识推理（1-3分）’等。

使用方法

使用ReaMOT Challenge时，需结合其专用评估指标（RIDF1、RMOTA等）评测模型推理与跟踪性能。基准方法ReaTrack框架通过LVLM解析语言指令生成目标框，再经SAM2在线跟踪轨迹。数据按视频时间轴划分训练集（前40%帧）和测试集（后60%帧），PoseTrack等短视频则按视频数量划分。测试时需注意：语言指令可能涉及跨帧推理，且负MOTA值会被截断为0以避免偏差。

背景与挑战

背景概述

ReaMOT Challenge是由华中科技大学的研究团队于2025年提出的一个基于推理的多目标跟踪基准数据集。该数据集旨在解决传统多目标跟踪任务在复杂语言指令下的局限性，特别是在需要深度推理的场景中。数据集构建于12个现有数据集之上，包含1,156条具有推理特性的语言指令、423,359个图像-语言对和869个不同场景。ReaMOT Challenge的提出不仅推动了多目标跟踪领域的发展，还为评估模型的推理能力提供了标准化平台。

当前挑战

ReaMOT Challenge面临的主要挑战包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决基于复杂语言推理的多目标跟踪问题，这要求模型不仅能够理解语言指令的表面含义，还需要进行深层次的推理以确定跟踪目标。在构建过程中，挑战主要来自于高质量语言指令的生成，包括如何确保指令的多样性和复杂性，以及如何准确标注需要深度推理的目标。此外，数据集的规模庞大且场景多样，也增加了构建和标注的难度。

常用场景

经典使用场景

ReaMOT Challenge数据集在计算机视觉领域，特别是在基于推理的多目标跟踪（ReaMOT）任务中，展现了其经典应用场景。该数据集通过整合12个不同的视频数据集，提供了1,156条具有推理特性的语言指令和423,359个图像-语言对，覆盖了869个多样化场景。这些数据不仅支持模型在复杂语言指令下的推理能力测试，还为多目标跟踪任务提供了丰富的视觉-语言交互环境。数据集特别适用于评估模型在需要深度推理的场景下的表现，如从模糊或复杂的语言描述中准确识别并跟踪目标。

衍生相关工作

ReaMOT Challenge数据集的推出催生了一系列相关研究工作，特别是在结合大型视觉-语言模型（LVLM）的多目标跟踪领域。例如，ReaTrack框架利用LVLM和SAM2的强推理与分割能力，成为该任务的基准方法。此外，数据集还激发了如TransRMOT和TempRMOT等方法的改进，这些工作通过引入更复杂的推理机制或优化跟踪关联策略，进一步推动了ReaMOT任务的发展。

数据集最近研究