LaSOT

arXiv2019-03-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1809.07845v2

下载链接

链接失效反馈

官方服务：

资源简介：

LaSOT是一个高质量的大规模单目标跟踪基准，包含1,400个序列和超过350万帧。每个帧都经过仔细和手动标注，使其成为目前最大的密集标注跟踪基准。平均视频长度超过2,500帧，每个序列包含各种挑战，目标对象可能在视野中消失和重新出现。此外，还提供了额外的语言规范，以鼓励探索自然语言特征用于跟踪。

LaSOT is a high-quality large-scale single-object tracking benchmark, which includes 1,400 sequences and over 3.5 million frames. Every frame has been carefully and manually annotated, making it the largest densely annotated tracking benchmark currently available. Each sequence contains an average of more than 2,500 frames and features various challenges, such as target objects disappearing from and reappearing within the field of view. Additionally, supplementary language annotations are provided to encourage the exploration of natural language features for tracking applications.

创建时间：

2018-09-21

搜集汇总

数据集介绍

构建方式

在视觉跟踪领域，大规模高质量数据集的匮乏制约了深度跟踪器的训练与评估。LaSOT的构建遵循五大原则：大规模、高质量密集标注、长期跟踪、类别平衡与全面标注。研究团队从YouTube平台依据Creative Commons许可收集了超过5000个候选视频，经过严格筛选与剪辑，最终选取了1400个序列，涵盖70个物体类别，每个类别包含20个视频以确保类别平衡。每个视频的平均长度超过2500帧，最短不少于1000帧，总帧数达到352万。标注过程采用人工精细标注与多重校验机制：首先由志愿者逐帧绘制目标边界框，随后由领域专家审核并修正，最后经由包含多名专家的验证团队进行一致性检查，确保标注的高质量与一致性。此外，针对特定目标（如老鼠尾巴）制定了特殊标注规则，以排除对跟踪任务无益的噪声信息。

特点

LaSOT作为大规模单目标跟踪基准，其显著特点体现在规模、质量与多样性三个维度。在规模上，它拥有1400个视频序列与超过352万帧的密集标注，是当前已知规模最大、标注质量最高的跟踪数据集。在序列长度上，平均超过2500帧，专注于长期跟踪场景，其中目标可能消失并重新出现，更贴近实际应用需求。数据集的多样性通过70个平衡分布的物体类别实现，有效缓解了类别偏差问题。此外，LaSOT创新性地为每个序列提供了自然语言描述，包括目标的颜色、行为与周围环境信息，旨在促进视觉与语言特征的融合研究。数据集还标注了14种挑战属性（如光照变化、完全遮挡、快速运动等），为跟踪算法的细粒度性能分析提供了丰富维度。

使用方法

LaSOT为视觉跟踪算法的开发与评估提供了灵活的使用框架。研究者可采用两种建议的评估协议：协议一使用全部1400个序列进行评估，允许使用LaSOT以外的任何数据进行算法训练，适用于大规模跟踪器的性能评估。协议二遵循80/20原则将数据集划分为训练集（1120个序列，283万帧）与测试集（280个序列，69万帧），便于在同一基准上进行训练与评估。评估指标采用单次通过评估（OPE），包括基于像素距离的精度、归一化精度以及基于交并比（IoU）的成功率。数据集的自然语言标注可作为辅助信息，用于增强跟踪算法的语义理解能力，例如在候选区域选择阶段提供全局语义引导。对于深度跟踪器，可利用其大规模训练集进行端到端训练或微调，以提升模型在复杂长时跟踪任务中的鲁棒性。

背景与挑战

背景概述

在计算机视觉领域，单目标跟踪作为一项核心任务，旨在通过视频首帧提供的初始边界框持续定位特定目标，其应用广泛涉及视频监控、机器人导航及人机交互等多个重要场景。随着深度学习技术的蓬勃发展，现有跟踪算法虽取得显著进展，却受限于训练数据的规模与质量。为此，由天普大学、华南理工大学及美图HiScene实验室等机构的研究团队于2019年共同推出了LaSOT（Large-scale Single Object Tracking）数据集。该数据集包含1,400段视频序列，总计超过350万帧图像，每帧均经过人工精细标注边界框，平均序列长度超过2,500帧，专注于长期跟踪场景中目标消失与重现的复杂挑战。LaSOT通过提供大规模、高质量密集标注的基准，不仅填补了深度学习跟踪器专用训练数据的空白，还引入了自然语言描述以促进多模态特征融合研究，对推动跟踪算法的稳健性与泛化能力产生了深远影响。

当前挑战

LaSOT数据集致力于解决单目标跟踪领域的两大核心挑战：一是长期跟踪中目标频繁消失与重现导致的轨迹断裂问题，二是复杂场景下由尺度变化、遮挡、形变及运动模糊等因素引起的跟踪漂移。在构建过程中，研究团队面临多重困难：首先，为确保标注质量，需对海量视频帧进行人工逐帧标注与多重校验，约40%的初始标注需经多轮修正，耗费巨量人力资源；其次，为保持类别平衡与多样性，需从70个物体类别中严格筛选各20段视频，并消除无关内容以提升序列可用性；此外，针对非刚性目标（如动物尾巴）的标注需制定特殊规则以维持一致性，而自然语言描述的添加也增加了标注复杂度。这些挑战共同凸显了大规模高质量数据集构建的艰巨性，同时也为跟踪算法的鲁棒性评估设立了更高标准。

常用场景

经典使用场景

在视觉跟踪领域，LaSOT数据集作为大规模单目标跟踪的高质量基准，其经典使用场景主要体现在为深度跟踪器的训练与评估提供丰富且具有挑战性的长序列视频资源。该数据集包含1400个视频序列，总计超过350万帧，每帧均经过人工精细标注边界框，平均序列长度超过2500帧，涵盖了目标消失与重现等真实世界复杂情境。研究者常利用LaSOT对跟踪算法进行大规模、长周期的性能测试，尤其适用于评估算法在遮挡、快速运动、尺度变化等14种挑战属性下的鲁棒性。

衍生相关工作

LaSOT数据集的发布催生了一系列相关经典研究工作，尤其是在深度跟踪和长时跟踪领域。许多先进的跟踪算法，如MDNet、SiamFC、ECO、VITAL等，均在LaSOT上进行了广泛评估与性能比较，推动了相关技术的演进。该数据集还激发了结合自然语言描述的视觉语言跟踪方法的研究，例如利用语言规范辅助目标定位与重识别。此外，基于LaSOT的训练协议（如Protocol II）为跟踪器的端到端训练提供了标准范式，促进了如SiamFC等模型在专用数据上的再训练与优化，进一步提升了跟踪精度与泛化能力。

数据集最近研究