WebUAV-3M

arXiv2022-12-31 更新2024-07-30 收录

下载链接：

https://github.com/983632847/WebUAV-3M

下载链接

链接失效反馈

官方服务：

资源简介：

WebUAV-3M是迄今为止最大的公共无人机跟踪基准，包含超过330万个帧，跨越4500个视频，提供223个高度多样的目标类别。每个视频都通过一个高效且可扩展的半自动目标标注（SATA）管道密集地标注了边界框。此外，为了利用语言和音频的互补优势，WebUAV-3M创新性地提供了自然语言规范和音频描述，以促进未来在探索多模态无人机跟踪中的语言特征和音频线索的研究。

WebUAV-3M is the largest public drone tracking benchmark to date, containing over 3.3 million frames spanning 4500 videos with 223 highly diverse target categories. Each video has been densely annotated with bounding boxes via an efficient and scalable semi-automatic target annotation (SATA) pipeline. Furthermore, to leverage the complementary strengths of language and audio, WebUAV-3M innovatively provides natural language specifications and audio descriptions to facilitate future research exploring linguistic features and audio cues in multimodal drone tracking.

创建时间：

2022-01-19

原始信息汇总

WebUAV-3M 数据集概述

数据集简介

WebUAV-3M 是迄今为止最大的公开无人机跟踪基准数据集，旨在促进深度无人机跟踪器的发展和评估。该数据集包含超过 330 万帧，跨越 4500 个视频，提供 223 个高度多样化的目标类别。每个视频通过高效的半自动目标标注（SATA）流水线密集标注了边界框。此外，数据集还创新性地提供了自然语言描述和音频描述，以利用语言和音频的互补优势，推动多模态无人机跟踪的研究。

关键特性

全模态：视觉边界框、语言和音频标注
大规模：4500 个视频，超过 300 万帧密集标注
多样化类别：12 个超级类别，超过 200 个目标类别，60 多个运动类别
高效标注：半自动目标标注流水线
严格评估：UTUSC 协议
多基准：43 个代表性跟踪器
统一数据集：训练、验证和测试集
多任务覆盖：夜间跟踪、对抗样本、多模态跟踪、数据不平衡

数据集下载

WebUAV-3M 数据集包含 4500 个视频，分为训练、验证和测试集。下载流程如下：

通过百度网盘或谷歌云端硬盘下载前，需先填写谷歌表单，下载链接将自动发送到您的邮箱。
百度网盘下载链接：Baidu Pan，提取码：UAV3
谷歌云端硬盘下载链接：Google Drive

各集视频数量：

训练集：3520 个视频（621G）
验证集：200 个视频（28G）
测试集：780 个视频（170G）

此外，还提供对抗样本子集（WebUAV-3M-AE），用于评估跟踪器的鲁棒性：

WebUAV-3M-AE：100 个（干净）+ 500 个（含对抗样本）视频（186G）

评估性能

使用以下脚本进行总体、属性、准确性和 UTUSC 协议评估： Python

Step1. 在数据集上运行实验

Step2. 将结果放入 WebUAV-3M_Evaluation_Toolkit/results/Baseline_Results

Step3. 报告跟踪性能

python WebUAV-3M_Overall_Evaluation.py python WebUAV-3M_Attribute_Evaluation.py python WebUAV-3M_Accuracy_Evaluation.py python WebUAV-3M_UTUSC_Protocol.py

引用

如果您在研究中使用了该数据集和工具包，请考虑引用：

@ARTICLE{10004511, author={Zhang, Chunhui and Huang, Guanjie and Liu, Li and Huang, Shan and Yang, Yinan and Wan, Xiang and Ge, Shiming and Tao, Dacheng}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, title={WebUAV-3M: A Benchmark for Unveiling the Power of Million-Scale Deep UAV Tracking}, year={2023}, volume={45}, number={7}, pages={9186-9205}, doi={10.1109/TPAMI.2022.3232854} }

搜集汇总

数据集介绍

构建方式

WebUAV-3M数据集通过从互联网（主要是YouTube）下载并剪辑4500个视频，构建了一个包含超过330万帧的无人机跟踪基准。每个视频通过半自动目标标注（SATA）管道进行密集标注，使用高效的半自动标注工具生成初步标注，并由人工进行实时检查和修正，确保标注的准确性。此外，数据集还提供了自然语言描述和音频描述，进一步丰富了多模态信息。

特点

WebUAV-3M数据集具有以下显著特点：首先，它是目前最大的公开无人机跟踪基准，包含4500个视频和223个高度多样化的目标类别；其次，数据集通过SATA管道实现了高效的半自动标注，显著减少了人工标注的时间和成本；最后，数据集引入了自然语言和音频描述，为多模态无人机跟踪研究提供了丰富的辅助信息。

使用方法

WebUAV-3M数据集可用于训练和评估深度无人机跟踪算法。研究者可以使用数据集中的视频和标注进行模型训练，并通过提供的评估协议（如UTUSC协议）对不同算法进行细致的性能评估。此外，数据集中的自然语言和音频描述可以用于探索多模态特征的融合，进一步提升无人机跟踪的鲁棒性和准确性。

背景与挑战

背景概述

WebUAV-3M是由张春辉、黄冠杰、刘力等人于2022年提出的一个大规模无人机跟踪基准数据集，旨在解决现有无人机跟踪数据集在数据规模、多样性和评估协议方面的不足。该数据集包含了超过330万帧的视频数据，涵盖了4500个视频和223个高度多样化的目标类别。每个视频都通过一个高效的半自动目标标注（SATA）管道进行了密集的边界框标注。此外，WebUAV-3M还创新性地提供了自然语言描述和音频描述，以增强多模态无人机跟踪的研究。该数据集的构建不仅推动了深度无人机跟踪技术的发展，还为相关领域的研究提供了新的方向和挑战。

当前挑战

WebUAV-3M数据集的构建和应用面临多方面的挑战。首先，无人机视频的视角多样性、运动模糊和目标分辨率变化等问题使得深度学习模型的训练变得复杂。其次，现有数据集在目标类别和场景覆盖上的局限性限制了模型的泛化能力。此外，缺乏自然语言和音频描述的多模态数据集使得研究人员难以探索这些非视觉特征在无人机跟踪中的潜力。最后，现有的评估协议在区分不同跟踪器的优劣方面存在不足，需要更精细的评估方法。WebUAV-3M通过引入UTUSC评估协议和七个挑战场景子测试集，旨在解决这些挑战，推动无人机跟踪技术的进一步发展。

常用场景

经典使用场景

WebUAV-3M数据集的经典使用场景主要集中在无人机（UAV）跟踪任务中。该数据集通过提供超过3.3百万帧的密集标注，涵盖了4500个视频和223个高度多样化的目标类别，为深度UAV跟踪算法的发展和评估提供了强大的基准。其丰富的标注不仅包括视觉边界框，还创新性地引入了自然语言描述和音频描述，进一步推动了多模态UAV跟踪的研究。

解决学术问题

WebUAV-3M数据集解决了现有UAV跟踪基准在数据规模、多样性和评估协议方面的不足。它通过提供大规模、多模态的数据，解决了深度学习模型对数据量的需求问题，并引入了细粒度的场景约束评估协议（UTUSC），帮助研究者更好地开发和评估各种先进的跟踪器。此外，该数据集通过引入自然语言和音频描述，探索了语言特征和音频线索在多模态UAV跟踪中的应用，为未来的研究提供了新的方向。

衍生相关工作

WebUAV-3M数据集的发布催生了一系列相关研究工作，特别是在多模态UAV跟踪领域。例如，研究者们开始探索如何将自然语言和音频信息与视觉信息结合，以提升跟踪算法的鲁棒性。此外，基于该数据集的细粒度评估协议，研究者们提出了多种新的跟踪算法，以应对低光、遮挡、高速运动等复杂场景。未来，该数据集还可能推动无人机在视频理解、野生动物保护、人群和车辆计数等领域的应用研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集