AVisT

Name: AVisT
Creator: MBZUAI
Published: 2022-08-15 01:49:37
License: 暂无描述

arXiv2022-08-15 更新2024-06-21 收录

下载链接：

https://github.com/visionml/pytracking

下载链接

链接失效反馈

官方服务：

资源简介：

AVisT数据集由MBZUAI创建，旨在为视觉对象跟踪提供一个包含多样化和挑战性场景的基准。该数据集包含120个视频序列，总计80,000帧，覆盖18种不同场景，如恶劣天气、光照变化等，并涉及42个对象类别。创建过程中，从YouTube收集约400个视频，经过筛选和标注，形成高质量的跟踪数据集。AVisT的应用领域广泛，包括自动驾驶、无人机救援和野生动物监测等，旨在解决复杂环境下的视觉跟踪问题。

The AVisT dataset was created by MBZUAI, aiming to serve as a benchmark with diverse and challenging scenarios for visual object tracking. This dataset consists of 120 video sequences totaling 80,000 frames, covering 18 distinct scenario types such as severe weather and illumination variations, and encompasses 42 object categories. During its development, around 400 videos were collected from YouTube, followed by filtering and annotation procedures to produce this high-quality visual tracking dataset. AVisT has broad application domains, including autonomous driving, UAV rescue, wildlife monitoring and more, and is designed to address visual tracking challenges in complex environments.

提供机构：

MBZUAI

创建时间：

2022-08-15

搜集汇总

数据集介绍

构建方式

在视觉目标跟踪领域，现有基准数据集已难以充分评估先进跟踪器在复杂环境下的鲁棒性。AVisT数据集的构建旨在填补这一空白，其通过从YouTube平台收集约400个涵盖18种恶劣能见度场景的视频，并经过严格筛选与剪辑，最终保留了120个最具挑战性的序列。为确保数据质量，研究团队采用双团队协作的标注流程：标注团队逐帧绘制目标边界框，验证团队则进行复审与修正。针对极端能见度场景（如浓雾、低光照），还引入了图像增强技术以提升标注精度，最终形成了包含8万帧标注图像的高质量数据集。

特点

AVisT数据集的核心特点在于其全面覆盖了现实世界中多种恶劣能见度场景，这些场景被归纳为五大属性：天气条件（如暴雨、浓雾、沙尘暴）、遮挡效应（如火焰、水花、强光）、成像效应（如低光照、档案视频）、目标效应（如快速运动、小目标、干扰物）以及伪装场景。数据集包含42类目标对象，序列平均长度达664帧，且每帧均标注了遮挡、出镜及极端能见度等状态标志。其挑战性体现在当前最优跟踪器仅能达到56.0%的AUC分数，显著低于其他主流数据集，凸显了其在推动跟踪技术边界方面的重要价值。

使用方法

AVisT数据集主要用于评估视觉目标跟踪算法在恶劣能见度条件下的性能。研究者可通过其提供的120个视频序列及精细标注，对跟踪器进行端到端测试，并利用标准评估指标（如基于IoU的AUC分数）量化性能。数据集支持按属性分组分析，帮助识别算法在特定场景（如天气条件或伪装）中的薄弱环节。此外，其提供的状态标志（如遮挡、极端能见度）可用于设计针对性改进策略，例如增强模型在低光照下的特征提取能力。数据集已公开于GitHub平台，便于社区进行复现与比较研究。

背景与挑战

背景概述

在计算机视觉领域，视觉对象跟踪作为一项基础任务，旨在连续视频帧中估计目标物体的状态与轨迹。随着深度学习技术的蓬勃发展，现有跟踪基准如LaSOT、TrackingNet等已逐渐难以对当前先进跟踪器构成有效挑战，主要归因于基于Transformer的复杂方法涌现及缺乏涵盖恶劣能见度场景的多样化数据。为此，由MBZUAI、苏黎世联邦理工学院等机构的研究团队于2022年共同创建了AVisT数据集，专注于在恶劣能见度条件下的视觉跟踪研究。该数据集包含120个挑战性序列与80,000帧标注图像，覆盖18种多样化场景，并归纳为天气条件、遮挡效应、成像效应、目标效应及伪装五大属性，涉及42个对象类别。AVisT的推出旨在弥补现有基准在真实世界复杂环境下的不足，推动跟踪技术向更鲁棒、更普适的方向演进，对自动驾驶、无人机救援及野生动物监测等应用具有深远影响。

当前挑战

AVisT数据集所应对的核心领域挑战在于恶劣能见度条件下的视觉对象跟踪问题。具体而言，跟踪器需在极端天气（如浓雾、暴雨）、遮挡效应（如火焰、眩光）、低光照成像、目标快速运动或伪装等复杂场景中，持续准确地学习并定位目标外观，这对模型的泛化能力与鲁棒性提出了极高要求。在数据集构建过程中，研究团队面临多重挑战：首先，从海量视频中筛选并标注符合多样化恶劣能见度场景的序列，需确保数据代表性且平衡各类属性分布；其次，在极端能见度条件下（如浓雾或低光照），人工标注目标边界极为困难，团队不得不借助图像增强技术辅助标注，并通过多轮验证与修订流程以保证标注质量；此外，数据集中部分伪装序列与现有检测数据集重叠，需重新进行密集帧级标注以适应跟踪任务需求，这些过程均凸显了构建高质量、高难度基准的复杂性。

常用场景

经典使用场景

在计算机视觉领域，视觉对象追踪技术旨在持续定位视频序列中的目标物体。AVisT数据集专为评估追踪算法在恶劣可见度条件下的性能而设计，其经典使用场景集中于模拟现实世界中的极端环境，如浓雾、暴雨、沙尘暴等恶劣天气，以及火灾、眩光、低光照等复杂视觉干扰。研究者利用该数据集测试追踪模型在这些挑战性场景下的鲁棒性，通过对比不同算法在相同条件下的表现，推动追踪技术向更适应实际应用需求的方向发展。

实际应用

在实际应用中，AVisT数据集直接服务于需要高可靠性视觉追踪的领域。例如，在自动驾驶系统中，车辆必须在暴雨或浓雾中持续追踪行人或其他车辆；无人机救援任务要求在火灾或烟雾环境下准确定位目标；野生动物保护则依赖追踪伪装动物以监测种群动态。AVisT通过模拟这些真实场景，帮助开发人员优化算法，确保追踪系统在恶劣条件下仍能保持稳定性能，从而提升相关应用的安全性和效率。

衍生相关工作

AVisT数据集的推出催生了一系列针对恶劣可见度追踪的创新研究。基于该数据集，学者们开发了如MixFormer等Transformer架构的追踪器，这些方法利用大规模预训练骨干网络（如ImageNet-22k）提升在天气条件等属性上的性能。同时，研究还深入分析了不同追踪范式（如Siamese网络、判别分类器和Transformer）在各类恶劣场景下的表现差异，推动了如KeepTrack和ToMP等算法在目标关联和模型预测方面的改进，为视觉追踪领域提供了新的研究方向和技术基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集