five

Tracking-Any-Granularity

收藏
Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/MCG-NJU/Tracking-Any-Granularity
下载链接
链接失效反馈
官方服务:
资源简介:
Tracking-Any-Granularity(TAG)是一个全面的数据集,用于训练名为Tracking-Any-Granularity的统一模型,包含了三种粒度的注释:分割掩模、边界框和关键点。数据集包含多种视频来源,具有强烈的多样性和作为跟踪性能评估的坚固基准。每个视频序列都被标注了18种不同的跟踪挑战属性,这些属性可能在同一视频序列中同时出现,反映了数据集的高难度和复杂多变的跟踪场景。
提供机构:
Multimedia Computing Group-Nanjing University
创建时间:
2025-10-22
原始信息汇总

TAG数据集概述

基本信息

  • 数据集名称: Tracking-Any-Granularity (TAG)
  • 维护机构: MCG-NJU
  • 许可证: CC BY-NC-SA 4.0
  • 任务类别: 视频跟踪
  • 标签: 视频对象分割、单对象跟踪、点跟踪、计算机视觉、基准测试
  • 语言: 英语
  • 论文: arXiv:2510.18822

数据集简介

TAG是一个综合性数据集,用于训练统一的跟踪模型,包含三种粒度级别的标注:分割掩码、边界框和关键点。

数据集特点

  • 包含广泛的视频来源,展示出强大的多样性
  • 每个视频序列标注了18个代表不同跟踪挑战的属性
  • 常见挑战包括运动模糊、形变和部分遮挡
  • 大多数视频包含多个属性,覆盖复杂多样的跟踪场景

数据集结构

ImageSets/ ├── valid.txt ├── test.txt

valid/test.tar.gz/ ├── Annotations/ │ ├── <video_name_1>/ │ │ ├── 00000.png │ │ └── ... ├── Points/ │ ├── <video_name_1>.npz ├── Boxes/ │ ├── <video_name_1>.txt ├── Visible/ │ ├── <video_name_1>.txt └── JPEGImages/ ├── <video_name_1>/ │ ├── 00000.jpg └── ...

基准测试结果

视频对象分割

模型 𝒥 & ℱ 𝒥
STCN 70.4 65.9 75.0
AOT-SwinB 78.1 73.1 83.2
DeAOT-SwinB 79.6 74.8 84.4
XMem 74.4 70.1 78.6
DEVA 77.9 73.1 82.6
Cutie-base+ 79.0 75.0 83.0
OneVOS 80.1 75.2 85.1
JointFormer 76.6 72.8 80.5
SAM2++ 87.4 84.2 90.7

单对象跟踪

模型 AUC P_Norm P
OSTrack 74.8 84.4 72.7
SimTrack 71.1 80.5 68.1
MixViT w/ConvMAE 72.1 80.9 70.5
DropTrack 76.8 86.9 74.4
GRM 73.1 82.3 71.4
SeqTrack 77.0 85.8 76.1
ARTrack 76.8 85.8 75.7
HIPTrack 78.2 88.5 76.6
SAM2++ 80.7 89.7 77.8

点跟踪

模型 Acc
pips 19.0
pips++ 20.9
CoTracker 23.3
CoTracker3 29.6
TAPTR 23.7
TAPIR 21.3
LocoTrack 25.2
Track-On 24.8
SAM2++ 35.3

下载方式

推荐使用huggingface-cli下载: bash pip install -U "huggingface_hub[cli]" huggingface-cli download MCG-NJU/Tracking-Any-Granularity --repo-type dataset --local-dir ./Tracking-Any-Granularity --local-dir-use-symlinks False --max-workers 16

引用信息

bibtex @article{zhang2025sam2trackinggranularity, title={SAM 2++: Tracking Anything at Any Granularity}, author={Jiaming Zhang and Cheng Liang and Yichun Yang and Chenkai Zeng and Yutao Cui and Xinwen Zhang and Xin Zhou and Kai Ma and Gangshan Wu and Limin Wang}, journal={arXiv preprint arXiv:2510.18822}, url={https://arxiv.org/abs/2510.18822}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,Tracking-Any-Granularity数据集通过整合多样化视频源,构建了涵盖分割掩码、边界框和关键点三种粒度标注的统一标注体系。该数据集采用系统化标注流程,为每个视频序列标注了18种代表不同跟踪挑战的属性,如运动模糊和部分遮挡,确保数据在复杂场景下的全面覆盖。
使用方法
研究人员可通过HuggingFace平台使用huggingface-cli工具直接下载数据集,其标准化的文件结构包含Annotations、Points、Boxes等模块。该数据集支持对SAM2++等先进模型的性能验证,用户可参照提供的评估指标在验证集和测试集上进行多维度性能对比分析。
背景与挑战
背景概述
视频目标跟踪作为计算机视觉领域的关键研究方向,致力于在连续帧中精确定位并分割动态目标。Tracking-Any-Granularity(TAG)数据集由南京大学媒体计算组于2024年10月发布,其核心目标在于构建一个支持多粒度标注的统一基准,涵盖分割掩码、边界框与关键点三种标注形式。该数据集通过整合多样化视频源与18类挑战属性,显著提升了复杂场景下的跟踪任务评估能力,为跨粒度跟踪模型的开发提供了重要支撑。
当前挑战
该数据集致力于解决视频目标跟踪中多粒度表征的协同建模难题,需同时应对目标形变、运动模糊与部分遮挡等复杂视觉干扰。构建过程中面临标注一致性与质量控制的严峻挑战,例如在长视频序列中维持分割边界的时序稳定性,以及关键点标注在低分辨率帧中的精确定位问题。此外,多源视频的异构性要求标注流程具备高度自适应能力,以确保跨场景数据的语义连贯性与度量统一性。
常用场景
经典使用场景
在计算机视觉领域,Tracking-Any-Granularity数据集为多粒度目标跟踪任务提供了标准化评估平台。该数据集通过融合分割掩码、边界框和关键点三种标注粒度,支持视频对象分割、单目标跟踪与点跟踪等核心任务的联合训练与验证。其包含的多样化视频序列与18种挑战性属性,为模型在复杂场景下的鲁棒性评估奠定了坚实基础。
解决学术问题
该数据集有效解决了视觉跟踪领域长期存在的标注粒度割裂问题。通过统一多粒度标注范式,突破了传统方法在分割精度与跟踪稳定性之间的权衡困境。其丰富的挑战属性配置为研究遮挡、形变等复杂场景下的跟踪算法提供了系统性评估基准,显著推动了通用化跟踪模型的理论发展。
实际应用
在自动驾驶与智能监控等实际场景中,该数据集支撑的算法能实现精准的车辆轨迹预测与行人行为分析。其多粒度特性特别适用于医疗影像中的器官运动追踪与工业质检中的零件定位,通过统一模型架构显著降低了多任务部署的工程复杂度,为实时视觉系统提供了可靠的技术支撑。
数据集最近研究
最新研究方向
在视频目标跟踪领域,Tracking-Any-Granularity数据集正推动多粒度统一建模的前沿探索。该数据集通过整合分割掩码、边界框和关键点三种标注粒度,为构建通用跟踪模型提供了坚实基础。当前研究热点聚焦于语言引导的跟踪任务,例如基于自然语言描述的跟踪和参考视频目标分割,这反映了多模态融合在复杂场景理解中的重要性。数据集涵盖的18种挑战性属性,如运动模糊和部分遮挡,促使研究者开发更具鲁棒性的算法。SAM 2++模型在各项基准测试中的卓越表现,彰显了统一架构在跨粒度任务中的潜力,为智能感知系统在自动驾驶和视频分析等实际应用开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作