CMOTB

Name: CMOTB
Creator: 安徽大学
Published: 2021-11-11 16:30:58
License: 暂无描述

arXiv2021-11-11 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2111.04264v2

下载链接

链接失效反馈

官方服务：

资源简介：

CMOTB数据集是由安徽大学开发的一个大型跨模态目标跟踪视频数据集，包含654个序列，总计超过481,000帧，平均视频长度超过735帧。该数据集通过手持摄像机在多种场景和背景复杂度下捕捉，特别考虑了光照强度变化导致的模态切换，模拟了真实世界中的监控、智能交通和自动驾驶系统等应用场景。数据集的创建旨在解决传统RGB图像序列在低光条件下目标跟踪无效的问题，通过引入近红外（NIR）成像，克服了单一成像源的局限性。CMOTB数据集不仅用于训练深度跟踪器，还用于评估不同跟踪算法的性能，为跨模态目标跟踪的研究提供了重要的基准和资源。

The CMOTB dataset is a large-scale cross-modal object tracking video dataset developed by Anhui University. It contains 654 sequences with a total of over 481,000 frames, and the average video length exceeds 735 frames. Captured via handheld cameras across diverse scenarios and varying background complexity levels, the dataset specially considers modality shifts induced by illumination intensity changes, simulating real-world application scenarios such as surveillance, intelligent transportation, and autonomous driving systems. Developed to solve the problem that traditional RGB image sequences fail at object tracking under low-light conditions, the dataset overcomes the limitations of single imaging sources by introducing near-infrared (NIR) imaging. The CMOTB dataset can be used not only for training deep trackers but also for evaluating the performance of different tracking algorithms, providing an important benchmark and resource for cross-modal object tracking research.

提供机构：

安徽大学

创建时间：

2021-11-08

搜集汇总

数据集介绍

构建方式

在视觉跟踪领域，传统方法通常依赖单一模态的RGB图像序列，在低光照条件下性能受限。为应对这一挑战，CMOTB数据集通过手持相机在多样化场景中采集视频数据，特别关注光照强度变化以触发模态切换。数据收集过程涵盖了654个跨模态图像序列，总帧数超过481K，平均视频长度达735帧以上。每个序列中的目标均通过最小边界框进行密集标注，并利用辅助标注工具确保标注质量，同时由专业标注人员遵循统一标准进行人工校验，以应对目标外观剧烈变化带来的标注困难。

特点

CMOTB数据集的核心特点在于其跨模态特性，即每个视频帧仅包含RGB或近红外（NIR）一种模态，且模态间会因光照变化而发生切换，这模拟了现实监控系统中常见的成像机制。数据集包含11种标注属性，如尺度变化、背景杂乱和模态适应等，其中模态适应属性专门描述了成像切换时帧内容的高强度变化。此外，数据集中模态切换次数分布广泛，从单次到多次不等，这为评估跟踪算法在跨模态场景下的鲁棒性提供了丰富挑战。

使用方法

CMOTB数据集主要用于训练和评估跨模态目标跟踪算法。研究者可将其划分为训练集和测试集，以训练深度学习模型，如通过三阶段学习算法优化模态感知表示。在评估时，可采用精度率、归一化精度率和成功率等标准指标，对算法在不同属性挑战下的性能进行分析。数据集支持将提出的MArMOT等插件式模块嵌入到如DiMP-50或RT-MDNet等主流跟踪框架中，以验证跨模态跟踪的有效性和泛化能力。

背景与挑战

背景概述

跨模态目标跟踪作为计算机视觉领域的前沿课题，旨在解决单一模态（如RGB）在低光照等复杂环境下跟踪性能下降的问题。CMOTB数据集由安徽大学研究团队于2021年创建，聚焦于RGB与近红外（NIR）模态间的自适应切换场景，其核心研究问题在于克服异质模态间的表观差异，实现鲁棒的目标跟踪。该数据集包含654个视频序列、超过48.1万帧图像，平均序列长度达735帧，为跨模态跟踪算法提供了首个统一基准，推动了视觉跟踪系统在安防监控、智能交通等实际应用中的适应性发展。

当前挑战

CMOTB数据集所针对的跨模态目标跟踪任务面临两大核心挑战：一是模态间表观差异显著，RGB与NIR成像在纹理、对比度等方面存在异构性，导致传统跟踪模型在模态切换时易失效；二是数据构建过程中需模拟真实光照变化触发模态切换，同时需处理标注一致性、序列长度差异及多属性（如运动模糊、遮挡等）的协同标注难题。此外，数据集中引入的“模态自适应”属性进一步增加了算法对动态环境适应的复杂性。

常用场景

经典使用场景

在计算机视觉领域，跨模态目标跟踪任务面临RGB与近红外（NIR）模态间显著的外观差异挑战。CMOTB数据集作为首个专注于该任务的统一基准，其经典使用场景集中于模拟真实监控环境中光照强度变化触发的模态切换过程。该数据集通过654个视频序列、超过48.1万帧的图像数据，系统捕捉了目标在RGB与NIR成像间动态转换的复杂情形，为研究者提供了评估算法在模态自适应、运动模糊及遮挡等多重挑战下鲁棒性的标准平台。

衍生相关工作

CMOTB数据集的发布催生了一系列跨模态跟踪领域的创新研究。基于该数据集提出的模态感知跨模态目标跟踪算法（MArMOT）通过双分支网络结构学习模态特异性表征，并嵌入至DiMP-50、RT-MDNet等经典跟踪框架中，显著提升了模态切换下的跟踪精度。后续研究进一步扩展了该数据集的合成版本，用于RGB-热红外跨模态任务验证，推动了模态自适应特征融合、多阶段训练策略等方向的发展，为跨模态视觉理解奠定了算法与数据基础。

数据集最近研究