Tracking-Any-Granularity
收藏arXiv2025-10-22 更新2025-11-05 收录
下载链接:
https://hf-mirror.com/datasets/MCG-NJU/Tracking-Any-Granularity
下载链接
链接失效反馈官方服务:
资源简介:
Tracking-Any-Granularity是一个包含6000个视频的大型数据集,提供了高质量的三种粒度的标注,包括分割掩码、边界框和关键点。该数据集通过一个交互式过程收集训练数据,其中标注者在不同阶段的视频序列中手动标注数据,模型随后用于标注剩余的帧,实现了数据集的快速和准确扩展。这个数据集为训练和评估统一的跟踪模型提供了一个宝贵的资源。
Tracking-Any-Granularity is a large-scale dataset comprising 6000 videos, which provides high-quality annotations across three granularities including segmentation masks, bounding boxes, and keypoints. This dataset collects training data via an interactive pipeline: annotators first manually label frames in different segments of the video sequences, then a pre-trained model is utilized to label the remaining frames, enabling rapid and accurate expansion of the dataset. This dataset serves as a valuable resource for training and evaluating unified tracking models.
提供机构:
南京大学, 腾讯, 上海人工智能实验室
创建时间:
2025-10-22
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,视频跟踪数据集通常受限于单一粒度标注,难以支撑统一跟踪模型的发展。Tracking-Any-Granularity数据集通过三阶段数据引擎构建:第一阶段对1000个视频逐帧人工标注;第二阶段对2000个视频每10帧标注;第三阶段对3000个视频每20帧标注。在后续阶段中,利用已训练的SAM 2++模型自动标注中间帧,并通过双向跟踪与首帧参考等策略提升标注质量,最终形成包含6000个视频、220万帧的跨粒度标注体系。
特点
该数据集在视频跟踪领域具有显著的多粒度特性,同时提供像素级掩码、边界框和关键点三种标注形式。其内容涵盖室内、室外和野外场景,包含运动模糊、形变、遮挡等18类挑战性属性,且多数视频兼具多个挑战因素。数据规模达到214万组掩码与边界框标注、264万组关键点标注,视频平均时长13.39秒,分辨率以720p为主,构建了当前最全面的多粒度跟踪评估基准。
使用方法
该数据集适用于统一视频跟踪模型的训练与评估,支持掩码跟踪、单目标跟踪和点跟踪三类任务。使用时需遵循数据集划分规则,其中150个验证视频和150个测试视频均来自第一阶段全标注数据,采用基于类别和来源的分层采样策略确保平衡性。对于多粒度联合训练,建议采用任务交替采样策略,通过统一解码器将不同粒度输出转换为掩码形式,并配合任务自适应记忆机制处理跨粒度记忆表征。
背景与挑战
背景概述
Tracking-Any-Granularity数据集于2025年由南京大学、腾讯PCG及上海AI实验室等机构联合发布,旨在解决视频跟踪领域中目标状态粒度多样化带来的模型泛化难题。该数据集作为SAM 2++框架的核心组成部分,首次实现了掩码、边界框与关键点三种粒度标注的统一,涵盖了6000段高分辨率视频与220万帧数据,填补了多粒度跟踪基准资源的空白。其创新性数据引擎通过人机协同标注流程,显著提升了标注效率与质量,为通用跟踪模型的研究提供了关键基础设施。
当前挑战
该数据集致力于解决多粒度视频跟踪的统一化挑战:其一,在领域问题层面,需克服传统方法因粒度差异导致的模型冗余与泛化局限,例如单一模型需同时适应像素级分割的精确性、边界框定位的鲁棒性及关键点跟踪的稳定性;其二,在构建过程中,面临标注一致性与复杂场景适配的难题,包括运动模糊、遮挡变形等极端条件下多粒度标注的协同验证,以及数据引擎中自动标注与人工修正的平衡优化。
常用场景
经典使用场景
在计算机视觉领域,Tracking-Any-Granularity数据集作为首个同时支持掩码、边界框和关键点三重粒度标注的视频跟踪基准,其经典应用场景聚焦于统一化视觉跟踪模型的训练与评估。该数据集通过精心设计的任务特定提示机制,将不同粒度的跟踪目标转化为统一的记忆表示,使得单一模型能够同时处理视频目标分割、单目标跟踪和点跟踪等传统上相互独立的任务。这种统一化框架有效解决了传统跟踪方法因任务分化导致的模型冗余问题,为构建通用化视觉跟踪系统提供了标准化实验平台。
实际应用
在实际应用层面,Tracking-Any-Granularity数据集支撑的SAM 2++模型在自动驾驶、视频监控和增强现实等领域展现出广泛适用性。在自动驾驶场景中,模型可同时处理车辆边界框跟踪和关键点轨迹预测;视频监控系统利用其多粒度跟踪能力,既能获取目标的精确轮廓,又能追踪特定特征点的运动模式;增强现实应用则受益于其稳定的点跟踪性能,实现虚拟物体与真实场景的精准贴合。这种统一化跟踪方案显著降低了实际部署时多模型切换的复杂度,提高了系统集成效率。
衍生相关工作
基于该数据集衍生的经典工作主要集中在统一化跟踪架构的拓展与优化。SAM 2++框架启发了后续研究对多模态提示机制的探索,如将语言和音频参照融入统一提示编码器。其任务自适应记忆机制催生了动态参数调整方法的研究,通过适配器技术实现不同粒度记忆表示的灵活切换。在数据生成方面,该数据集的高质量标注范式被广泛应用于半自动标注系统的构建,推动了模型辅助标注技术在视频理解领域的普及。这些衍生工作共同推动了通用化视觉跟踪技术体系的完善与发展。
以上内容由遇见数据集搜集并总结生成



