GMOT-40

Name: GMOT-40
Creator: 天普大学
Published: 2021-04-08 03:13:00
License: 暂无描述

arXiv2021-04-08 更新2024-06-21 收录

下载链接：

https://github.com/Spritea/GMOT40

下载链接

链接失效反馈

官方服务：

资源简介：

GMOT-40是首个公开的密集通用多目标跟踪数据集，由天普大学和石溪大学联合创建。该数据集包含40个精心标注的视频序列，涵盖10个不同类别的对象，每个类别有4个序列。每个序列平均包含约22个同类别对象，所有序列均经过人工标注和验证。GMOT-40旨在解决现有MOT数据集对特定对象类别的依赖问题，适用于视频编辑、动物行为分析和基于视觉的对象计数等领域。数据集创建过程中，从YouTube等来源筛选并编辑视频，确保每个序列至少包含100帧，且80%的帧中至少有10个目标。

GMOT-40 is the first publicly available dense general multi-object tracking (MOT) dataset, jointly developed by Temple University and Stony Brook University. This dataset includes 40 meticulously annotated video sequences spanning 10 distinct object categories, with 4 sequences per category. Each sequence contains an average of approximately 22 objects of the same category, and all sequences have been manually annotated and verified. GMOT-40 aims to address the dependency issue of existing MOT datasets on specific object categories, and is applicable to fields such as video editing, animal behavior analysis, and vision-based object counting. During the dataset creation process, videos were screened and edited from sources including YouTube to ensure that each sequence contains at least 100 frames, and at least 10 targets appear in 80% of the frames.

提供机构：

天普大学

创建时间：

2020-11-24

搜集汇总

数据集介绍

构建方式

在通用多目标跟踪研究领域，GMOT-40数据集的构建体现了严谨的系统化设计理念。研究团队首先确立了涵盖十个不同对象类别的框架，确保类别多样性以应对模型泛化挑战。通过从YouTube平台初选约一千个候选视频，依据目标密度、外观相似性及序列长度等标准进行严格筛选，最终保留四十个高质量序列。每个序列均经过专业剪辑，剔除无关片段，确保内容聚焦于跟踪任务。所有视频帧均采用人工标注方式，并由专家团队进行双重校验与修正，标注格式遵循MOT15标准，但摒弃了忽略困难目标的标记策略，以全面反映真实场景的挑战性。

特点

GMOT-40数据集的核心特点在于其密集标注与广泛覆盖性。作为首个公开的密集通用多目标跟踪基准，它包含四十个视频序列，均匀分布于十个对象类别，每类四段序列，平均每帧目标数量约为26.58个，显著高于以往同类数据集。该数据集涵盖了多种真实世界挑战，如目标遮挡、快速运动、运动模糊、相机运动、目标形变及低分辨率等复杂属性。其标注质量高，所有帧均经过人工精细标注与验证，且不区分同类目标的外观差异，如不同颜色的气球均视为同一类别目标进行跟踪，这更贴近实际应用场景中对泛化能力的要求。

使用方法

GMOT-40数据集主要支持一次性（One-shot）通用多目标跟踪协议的评估。在该协议下，算法仅在每段序列的第一帧获得一个目标边界框作为模板，无需任何类别先验知识，即需检测并跟踪视频中所有同类目标。数据集提供了完整的评估框架，包括采用CLEAR MOT和ID指标等广泛认可的度量标准。研究者可利用该基准测试现有MOT算法在泛化场景下的性能，或开发专用于GMOT的新方法。此外，论文还提出了一系列基线算法，将全局跟踪器改造为一次性检测阶段，并与多种关联策略结合，为后续研究提供了可比较的起点。数据集的发布旨在系统性推动对未知类别对象跟踪能力的研究。

背景与挑战

背景概述

通用多目标跟踪（GMOT）作为计算机视觉领域的重要分支，旨在摆脱对目标先验知识的依赖，实现对任意类别物体的检测与追踪。然而，在GMOT-40数据集问世之前，该领域长期缺乏高质量、大规模且公开可用的基准数据，严重制约了算法的系统化评估与比较。为填补这一空白，由天普大学、石溪大学及微软研究院的研究人员于2021年共同构建了GMOT-40数据集。该数据集包含40个精心筛选的视频序列，均匀覆盖飞机、昆虫、牲畜等10个不同类别，每个序列平均包含约26个目标，并引入了遮挡、快速运动、模糊等多种真实场景挑战。GMOT-40的发布为通用多目标跟踪研究提供了首个密集标注的基准，显著推动了该领域从特定类别跟踪向通用化、泛化性方向的演进。

当前挑战

GMOT-40数据集致力于解决通用多目标跟踪中的核心挑战：如何在不依赖目标先验模型的情况下，实现对未知类别物体的鲁棒跟踪。这一任务面临多重困难：其一，传统多目标跟踪方法通常依赖于预训练的类别特定检测器，难以泛化至未见过的物体类别；其二，通用场景中目标外观差异大、运动模式复杂，且常伴有密集遮挡、形变及快速运动等现象，对跟踪算法的判别与关联能力提出极高要求。在数据集构建过程中，研究团队亦面临显著挑战：需从海量视频中筛选出目标密度高、类别多样且包含丰富真实挑战的序列；同时，为确保标注质量，所有帧均需人工精细标注并经过多轮校验，涉及大量时间与专业人力投入。这些挑战共同凸显了通用多目标跟踪问题的复杂性，以及高质量基准数据对该领域发展的关键意义。

常用场景

经典使用场景

在计算机视觉领域，通用多目标跟踪（GMOT）旨在克服传统多目标跟踪方法对特定目标类别先验知识的依赖。GMOT-40作为首个公开的密集标注通用多目标跟踪基准数据集，其经典使用场景集中于评估和推动无需目标类别先验的跟踪算法发展。该数据集通过提供涵盖10个不同对象类别、包含40个视频序列的丰富样本，支持研究者系统性地探索模型在未知类别对象上的泛化能力。其精心设计的单样本跟踪协议，仅需首帧中一个目标边界框作为模板，即要求算法在整个视频中检测并跟踪所有同类目标，这为评估跟踪器在真实世界复杂场景下的鲁棒性提供了标准化测试平台。

衍生相关工作

GMOT-40数据集的发布催生并支撑了一系列围绕通用多目标跟踪的经典研究工作。论文本身即基于GlobalTrack等单目标跟踪器，创新性地构建了一套包含单样本检测与目标关联的两阶段基线算法框架。该数据集已成为后续许多GMOT研究的标准测试平台，激励研究者设计更强大的类别无关特征提取与匹配机制。其高密度、多挑战的属性促使相关研究深入探索在遮挡、形变、快速运动等复杂条件下的稳健关联策略。此外，GMOT-40也促进了与‘跟踪任意物体’等更广义跟踪范式的对比与融合研究，为整个领域提供了不可或缺的数据基础和性能参照。

数据集最近研究