DiDi

Name: DiDi
Creator: 斯洛文尼亚卢布尔雅那大学计算机与信息科学学院
Published: 2025-09-17 17:54:27
License: 暂无描述

arXiv2025-09-17 更新2025-09-19 收录

下载链接：

https://github.com/jovanavidenovic/DAM4SAM

下载链接

链接失效反馈

官方服务：

资源简介：

DiDi数据集是由斯洛文尼亚卢布尔雅那大学计算机与信息科学学院的研究人员构建的，包含180个序列，每个序列都标注了初始分割掩码。该数据集旨在用于视觉对象跟踪的研究，特别是用于评估在存在干扰物的情况下跟踪器的性能。数据集由多个视频序列组成，每个序列平均长度为1500帧，是迄今为止规模最大、最具挑战性的干扰物导向跟踪数据集之一。DiDi数据集通过半自动蒸馏多个基准测试数据集而得，目的是为了更好地暴露跟踪器在面对干扰物时的性能改进。

The DiDi dataset was constructed by researchers from the School of Computer and Information Science, University of Ljubljana, Slovenia. It includes 180 sequences, each annotated with an initial segmentation mask. This dataset is intended for visual object tracking research, particularly for evaluating tracker performance in the presence of distractors. Composed of multiple video sequences with an average length of 1500 frames per sequence, it is currently one of the largest and most challenging distractor-aware tracking datasets to date. The DiDi dataset is derived by semi-automatically distilling multiple benchmark datasets, with the aim of better demonstrating the performance improvements of trackers when facing distractors.

提供机构：

斯洛文尼亚卢布尔雅那大学计算机与信息科学学院

创建时间：

2025-09-17

原始信息汇总

数据集概述

基本信息

数据集名称：DAM4SAM
提出机构：卢布尔雅那大学计算机与信息科学学院
提出者：Jovana Videnović, Alan Lukežič, Matej Kristan
相关论文：A Distractor-Aware Memory (DAM) for Visual Object Tracking with SAM2 [CVPR, 2025]
论文链接：https://arxiv.org/abs/2411.17576
项目页面：https://jovanavidenovic.github.io/dam-4-sam/

数据集简介

DiDi（Distractor-Distilled）是一个专为视觉目标跟踪设计的干扰物蒸馏数据集，旨在解决当前视觉目标跟踪基准中干扰物存在不足的问题。该数据集通过半自动方式从多个现有基准中蒸馏得到，专注于提升在干扰物环境下的跟踪性能评估和分析。

数据集内容

数据来源：从多个现有视觉跟踪基准数据集蒸馏得到
标注形式：边界框标注
特点：包含大量挑战性干扰物场景

下载信息

下载链接：https://go.vicos.si/didi
文件格式：未明确说明

评估结果

在DiDi数据集上的性能评估结果：

模型	质量	准确率	鲁棒性
TransT	0.465	0.669	0.678
KeepTrack	0.502	0.646	0.748
SeqTrack	0.529	0.714	0.718
AQATrack	0.535	0.693	0.753
AOT	0.541	0.622	0.852
Cutie	0.575	0.704	0.776
ODTrack	0.608	0.740	0.809
SAM2.1Long	0.646	0.719	0.883
SAM2.1	0.649	0.720	0.887
SAMURAI	0.680	0.722	0.930
DAM4SAM	0.694	0.727	0.944

使用说明

支持的数据集：DiDi、VOT2020、VOT2022、LaSot、LaSoText、GoT-10k
运行环境：需要配置特定的Python环境和依赖包
评估工具：使用VOT工具包进行性能评估

相关资源

初始化掩码：https://data.vicos.si/alanl/sam2_init_masks.zip
基础模型：基于Meta FAIR的SAM2构建

搜集汇总

数据集介绍

构建方式

DiDi数据集通过半自动化流程从多个主流跟踪基准中蒸馏构建，涵盖GoT-10k、LaSOT、UTB180及VOT系列的高质量标注序列。采用DINOv2骨干网络提取密集图像特征，计算像素级目标相似度响应图，以余弦相似度阈值0.5作为干扰物存在判据，最终筛选出180个平均长度1500帧的序列，每个序列均标注初始分割掩码以确保分割类跟踪器的初始化需求。

使用方法

该数据集适用于评估跟踪器在干扰物存在下的性能，需以第一帧标注掩码初始化模型并输出每帧的分割或边界框结果。评估时可采用VOTS协议的综合质量指标（Q分数），兼顾短时与长时跟踪表现。其高干扰物密度设计尤其适合验证记忆管理机制、干扰物判别模块的有效性，为跟踪算法在复杂场景下的鲁棒性提供标准化测试环境。

背景与挑战

背景概述

DiDi数据集由卢布尔雅那大学计算机与信息科学学院的Jovana Videnović、Matej Kristan和Alan Lukežič研究团队于2025年创建，专注于视觉目标跟踪领域中的干扰物感知问题。该数据集通过半自动蒸馏多个主流跟踪基准（如LaSOT、GoT-10k和VOT系列）构建，包含180个平均长度为1500帧的高质量序列，每个序列均标注初始分割掩码。其核心研究目标是解决复杂场景中视觉相似干扰物导致的跟踪漂移和再检测失败问题，为评估跟踪算法的鲁棒性提供了专用测试平台，推动了记忆增强型跟踪架构的发展。

当前挑战

DiDi数据集针对干扰物引发的跟踪漂移问题，要求模型在目标与背景高度相似或存在多干扰物的场景中保持稳定跟踪。构建过程中的挑战包括：从原始基准中筛选具有显著干扰物的序列需设计自动化检测流程，基于DINOv2特征相似性计算与人工验证确保数据质量；同时需处理长序列存储与标注一致性，避免因标注噪声影响模型评估可靠性。

常用场景

经典使用场景

在视觉目标追踪领域，DiDi数据集专为评估追踪器在干扰物存在下的鲁棒性而设计。其典型应用场景包括模拟真实环境中目标与视觉相似干扰物共存的情境，例如在密集人群追踪特定个体、野生动物监测中区分相似物种，或体育赛事中追踪特定运动员。该数据集通过高帧率长序列（平均1500帧）和半自动筛选机制，确保每段视频均包含显著干扰挑战，为内存型追踪算法提供了验证平台。

解决学术问题

DiDi数据集解决了现代追踪研究中干扰物导致的跟踪漂移和再检测失效两大核心问题。传统基准测试因包含大量简单序列而掩盖了算法在复杂场景中的缺陷，DiDi通过蒸馏多个权威数据集（如LaSOT、VOT系列）中高干扰序列，凸显了算法在目标遮挡、外观相似物干扰等场景下的性能差异。该数据集推动了记忆管理机制、判别性特征学习等方向的研究，为构建更鲁棒的追踪模型提供关键评估依据。

实际应用

DiDi数据集的实际应用价值体现在对现实场景中追踪系统的性能优化。在智能监控领域，它助力开发能够在人群密集区稳定追踪特定目标的系统；在自动驾驶中，提升车辆对相似障碍物的区分能力；在体育分析中，支持对运动员在快速移动且着装相似的场景下的精准轨迹追踪。其长序列特性还可用于测试系统在长期运行中的稳定性，为工业级应用提供可靠性验证基准。

数据集最近研究