WebUAV-3M

arXiv2025-09-30 收录

下载链接：

https://github.com/983632847/webuav-3m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个为无人机场景设计的视觉-语言追踪的基准数据集，它被用于实验中，以展示所提出追踪框架的有效性。该数据集的任务是视觉-语言追踪。

This dataset is a benchmark dataset for vision-language tracking tailored for drone scenarios, which is employed in experiments to demonstrate the effectiveness of the proposed tracking framework. The task of this dataset is vision-language tracking.

搜集汇总

数据集介绍

构建方式

在无人机视觉追踪领域，数据稀缺与标注效率低下长期制约着深度学习模型的性能提升。WebUAV-3M数据集的构建采用了创新的半自动目标标注（SATA）流程，该流程结合了先进追踪模型与人工实时校验，实现了大规模视频序列的高效密集标注。具体而言，首先从互联网收集原始无人机视频，经过数据清洗与裁剪，形成包含4500段视频、总计超过330万帧的初始池。随后，通过SATA工具，利用预训练追踪模型生成初步边界框，并由专业标注团队进行实时检查与修正，确保每帧中目标的边界框标注既准确又紧密。这一流程显著降低了人工标注成本，同时保证了标注质量，使得整个数据集的标注工作在三个月内得以完成。

使用方法

WebUAV-3M数据集的使用旨在促进无人机追踪算法的统一训练与评估。数据集已划分为训练集、验证集和测试集，其中训练集包含3520段视频，测试集包含780段视频，确保了评估的广泛性与可靠性。研究者可利用该数据集进行大规模监督学习，训练深度追踪模型，并通过提供的评估工具包，采用精确度、归一化精确度、成功率及完整成功率等指标进行性能度量。此外，新提出的无人机场景约束评估协议（UTUSC）允许针对特定挑战场景进行细粒度分析，如低光照、高速运动等，从而深入揭示算法优劣。数据集中包含的自然语言与音频注释，也为探索语言特征与音频线索在多模态追踪中的应用提供了便利。

背景与挑战

背景概述

无人机目标跟踪作为计算机视觉领域的关键任务，在物流配送、农业监测等实际应用中具有重要价值。WebUAV-3M数据集由香港中文大学（深圳）大数据研究院、上海交通大学及京东探索研究院等机构的研究团队于2022年联合构建，旨在解决现有无人机跟踪基准规模有限、模态单一、类别覆盖不足等核心问题。该数据集包含4500段视频、超过330万帧图像，涵盖223类目标对象，并创新性地融合了视觉边界框、自然语言描述与音频标注，为大规模深度无人机跟踪模型的训练与评估提供了迄今最全面的多模态基准平台。

当前挑战

WebUAV-3M面临的挑战主要体现在两方面：其一，在领域问题层面，无人机跟踪需应对低光照、长期遮挡、小目标、高速运动等复杂场景下的目标定位难题，同时需探索语言与音频等多模态信息在跟踪任务中的互补机制；其二，在构建过程中，大规模数据标注面临效率与质量的平衡问题，研究团队通过设计半自动目标标注流程提升标注速度，并针对长尾分布、场景多样性、对抗样本生成等挑战，建立了细粒度的场景约束评估协议与七个子测试集，以支撑鲁棒跟踪算法的开发与验证。

常用场景

经典使用场景

在无人机视觉跟踪领域，WebUAV-3M数据集作为迄今规模最大的公开基准，其经典应用场景集中于推动深度无人机跟踪算法的训练与评估。该数据集通过涵盖4500个视频序列、超过330万帧的密集标注，为研究者提供了丰富的视觉数据，特别适用于开发能够应对无人机视角下独特挑战（如快速运动、视角多变和目标分辨率波动）的跟踪模型。其多模态标注（包括自然语言描述和音频线索）进一步拓展了算法在语言与听觉特征融合方面的探索空间，为多模态跟踪研究奠定了坚实基础。

解决学术问题

WebUAV-3M有效解决了无人机跟踪研究中长期存在的若干学术问题。首先，它通过百万级规模的标注数据缓解了深度模型训练中的数据稀缺困境，突破了以往小规模数据集的局限。其次，数据集涵盖223个高度多样化的目标类别，显著提升了模型对未见类别的泛化能力，推动了类无关跟踪算法的发展。此外，其引入的无人机跟踪场景约束评估协议（UTUSC）及七个子测试集（如低光照、长期遮挡等），提供了更精细、客观的性能评估框架，克服了传统全局属性评估的模糊性，为算法在真实复杂场景下的鲁棒性研究提供了可靠平台。

实际应用

在实际应用层面，WebUAV-3M数据集为无人机跟踪技术在多个领域的落地提供了关键支持。在智能交通监控中，算法可基于数据集中车辆类别的丰富样本，实现对高速运动目标的稳定追踪；在农业无人机巡检场景下，模型能够借助数据集中农业机械类别的标注，精准定位农田作业设备。此外，数据集包含的低光照、小目标等挑战性场景，直接对应夜间搜救、远距离监测等现实任务需求，有助于开发适应恶劣环境的鲁棒跟踪系统，提升无人机在物流配送、公共安全等领域的应用效能。

数据集最近研究