Tracking-Any-Granularity

Name: Tracking-Any-Granularity
Creator: Multimedia Computing Group-Nanjing University
Published: 2025-10-29 21:31:32
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/MCG-NJU/Tracking-Any-Granularity

下载链接

链接失效反馈

官方服务：

资源简介：

Tracking-Any-Granularity（TAG）是一个全面的数据集，用于训练名为Tracking-Any-Granularity的统一模型，包含了三种粒度的注释：分割掩模、边界框和关键点。数据集包含多种视频来源，具有强烈的多样性和作为跟踪性能评估的坚固基准。每个视频序列都被标注了18种不同的跟踪挑战属性，这些属性可能在同一视频序列中同时出现，反映了数据集的高难度和复杂多变的跟踪场景。

提供机构：

Multimedia Computing Group-Nanjing University

创建时间：

2025-10-22

原始信息汇总

TAG数据集概述

基本信息

数据集名称: Tracking-Any-Granularity (TAG)
维护机构: MCG-NJU
许可证: CC BY-NC-SA 4.0
任务类别: 视频跟踪
标签: 视频对象分割、单对象跟踪、点跟踪、计算机视觉、基准测试
语言: 英语
论文: arXiv:2510.18822

数据集简介

TAG是一个综合性数据集，用于训练统一的跟踪模型，包含三种粒度级别的标注：分割掩码、边界框和关键点。

数据集特点

包含广泛的视频来源，展示出强大的多样性
每个视频序列标注了18个代表不同跟踪挑战的属性
常见挑战包括运动模糊、形变和部分遮挡
大多数视频包含多个属性，覆盖复杂多样的跟踪场景

数据集结构

ImageSets/ ├── valid.txt ├── test.txt

valid/test.tar.gz/ ├── Annotations/ │ ├── <video_name_1>/ │ │ ├── 00000.png │ │ └── ... ├── Points/ │ ├── <video_name_1>.npz ├── Boxes/ │ ├── <video_name_1>.txt ├── Visible/ │ ├── <video_name_1>.txt └── JPEGImages/ ├── <video_name_1>/ │ ├── 00000.jpg └── ...

基准测试结果

视频对象分割

模型	𝒥 & ℱ	𝒥	ℱ
STCN	70.4	65.9	75.0
AOT-SwinB	78.1	73.1	83.2
DeAOT-SwinB	79.6	74.8	84.4
XMem	74.4	70.1	78.6
DEVA	77.9	73.1	82.6
Cutie-base+	79.0	75.0	83.0
OneVOS	80.1	75.2	85.1
JointFormer	76.6	72.8	80.5
SAM2++	87.4	84.2	90.7

单对象跟踪

模型	AUC	P_Norm	P
OSTrack	74.8	84.4	72.7
SimTrack	71.1	80.5	68.1
MixViT w/ConvMAE	72.1	80.9	70.5
DropTrack	76.8	86.9	74.4
GRM	73.1	82.3	71.4
SeqTrack	77.0	85.8	76.1
ARTrack	76.8	85.8	75.7
HIPTrack	78.2	88.5	76.6
SAM2++	80.7	89.7	77.8

点跟踪

模型	Acc
pips	19.0
pips++	20.9
CoTracker	23.3
CoTracker3	29.6
TAPTR	23.7
TAPIR	21.3
LocoTrack	25.2
Track-On	24.8
SAM2++	35.3

下载方式

推荐使用huggingface-cli下载： bash pip install -U "huggingface_hub[cli]" huggingface-cli download MCG-NJU/Tracking-Any-Granularity --repo-type dataset --local-dir ./Tracking-Any-Granularity --local-dir-use-symlinks False --max-workers 16

引用信息

bibtex @article{zhang2025sam2trackinggranularity, title={SAM 2++: Tracking Anything at Any Granularity}, author={Jiaming Zhang and Cheng Liang and Yichun Yang and Chenkai Zeng and Yutao Cui and Xinwen Zhang and Xin Zhou and Kai Ma and Gangshan Wu and Limin Wang}, journal={arXiv preprint arXiv:2510.18822}, url={https://arxiv.org/abs/2510.18822}, year={2025} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，Tracking-Any-Granularity数据集通过整合多样化视频源，构建了涵盖分割掩码、边界框和关键点三种粒度标注的统一标注体系。该数据集采用系统化标注流程，为每个视频序列标注了18种代表不同跟踪挑战的属性，如运动模糊和部分遮挡，确保数据在复杂场景下的全面覆盖。

使用方法

研究人员可通过HuggingFace平台使用huggingface-cli工具直接下载数据集，其标准化的文件结构包含Annotations、Points、Boxes等模块。该数据集支持对SAM2++等先进模型的性能验证，用户可参照提供的评估指标在验证集和测试集上进行多维度性能对比分析。

背景与挑战

背景概述

视频目标跟踪作为计算机视觉领域的关键研究方向，致力于在连续帧中精确定位并分割动态目标。Tracking-Any-Granularity（TAG）数据集由南京大学媒体计算组于2024年10月发布，其核心目标在于构建一个支持多粒度标注的统一基准，涵盖分割掩码、边界框与关键点三种标注形式。该数据集通过整合多样化视频源与18类挑战属性，显著提升了复杂场景下的跟踪任务评估能力，为跨粒度跟踪模型的开发提供了重要支撑。

当前挑战

该数据集致力于解决视频目标跟踪中多粒度表征的协同建模难题，需同时应对目标形变、运动模糊与部分遮挡等复杂视觉干扰。构建过程中面临标注一致性与质量控制的严峻挑战，例如在长视频序列中维持分割边界的时序稳定性，以及关键点标注在低分辨率帧中的精确定位问题。此外，多源视频的异构性要求标注流程具备高度自适应能力，以确保跨场景数据的语义连贯性与度量统一性。

常用场景

经典使用场景

在计算机视觉领域，Tracking-Any-Granularity数据集为多粒度目标跟踪任务提供了标准化评估平台。该数据集通过融合分割掩码、边界框和关键点三种标注粒度，支持视频对象分割、单目标跟踪与点跟踪等核心任务的联合训练与验证。其包含的多样化视频序列与18种挑战性属性，为模型在复杂场景下的鲁棒性评估奠定了坚实基础。

解决学术问题

该数据集有效解决了视觉跟踪领域长期存在的标注粒度割裂问题。通过统一多粒度标注范式，突破了传统方法在分割精度与跟踪稳定性之间的权衡困境。其丰富的挑战属性配置为研究遮挡、形变等复杂场景下的跟踪算法提供了系统性评估基准，显著推动了通用化跟踪模型的理论发展。

实际应用

在自动驾驶与智能监控等实际场景中，该数据集支撑的算法能实现精准的车辆轨迹预测与行人行为分析。其多粒度特性特别适用于医疗影像中的器官运动追踪与工业质检中的零件定位，通过统一模型架构显著降低了多任务部署的工程复杂度，为实时视觉系统提供了可靠的技术支撑。

数据集最近研究