UAV-Human

arXiv2025-09-30 收录

下载链接：

https://github.com/sutdcv/uav-human

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由飞行无人机收集的大规模人类行为理解数据集，包含了用于不同任务的各种视频序列和图像。数据集涵盖了多种数据模式，如RGB视频、深度视频、红外序列、骨架数据、鱼眼视频以及夜视视频等。具体规模包括22,476个视频序列，用于姿态估计的22,476张图像，用于重新识别的41,290张图像和1,144个身份信息，以及用于属性识别的22,263张图像。该数据集的任务涵盖了人类动作识别、人体姿态估计、人物重新识别以及人体属性识别等多个领域。

This large-scale human behavior understanding dataset is collected via aerial drones, encompassing diverse video sequences and images for various downstream tasks. The dataset covers multiple data modalities, including RGB videos, depth videos, infrared sequences, skeleton data, fisheye videos, and night-vision videos. In terms of scale, it contains 22,476 video sequences, 22,476 images for human pose estimation, 41,290 images and 1,144 identity annotations for person re-identification, as well as 22,263 images for attribute recognition. The supported tasks span multiple research fields, namely human action recognition, human pose estimation, person re-identification, and human attribute recognition.

搜集汇总

数据集介绍

构建方式

在无人机行为理解领域，UAV-Human数据集的构建体现了系统化采集与多维度标注的严谨性。该数据集通过搭载多传感器的DJI Matrice 100平台，在长达三个月的时间内，跨越45个不同场景（包括城市与乡村、室内与室外），于昼夜交替及多种天气条件下进行动态采集。采集过程中无人机采用悬停、爬升、巡航等多种飞行姿态，以模拟真实应用场景中的视角变化与运动模糊。数据模态涵盖RGB视频、深度图、红外序列、鱼眼视频及夜视影像，并通过人工标注与姿态估计算法相结合的方式，为67,428段视频序列提供了动作识别、姿态估计、行人重识别及属性识别四类任务的精细标注。

特点

UAV-Human数据集的核心特点在于其规模宏大、模态丰富且场景极具挑战性。作为目前最大的无人机行为理解基准，它包含119位不同年龄、性别与着装风格的受试者，在155类动作中表现出高度多样性。数据集提供六种异构模态数据，包括鱼眼与夜视等无人机特有传感数据，有效支持跨模态与多模态学习方法。采集环境覆盖昼夜、晴雨、室内外等多种条件，且无人机飞行高度、速度与姿态的持续变化引入了显著的视角偏移、分辨率波动及运动模糊，极大增强了数据集的现实复杂性与算法评估价值。

使用方法

该数据集支持动作识别、姿态估计、行人重识别及属性识别四大任务的独立或联合研究。在动作识别任务中，研究者可采用交叉受试者协议（CSv1/CSv2）划分训练与测试集，利用RGB、深度、红外等多模态输入评估模型鲁棒性；针对鱼眼视频的畸变问题，可借鉴论文提出的GT-I3D框架，通过平面RGB视频引导的空间变换模块提升识别精度。姿态估计任务提供22,476帧带17个关键点标注的图像，适用于评估在复杂视角与遮挡下的姿态预测性能。行人重识别与属性识别任务分别包含1,144个身份的41,290帧图像与22,263帧属性标注图像，为无人机视角下的身份检索与特征分析提供基准。数据集的多元标注结构允许进行任务间迁移学习与多任务联合建模的探索。

背景与挑战

背景概述

随着无人机技术的飞速发展，其在人类行为理解领域的应用日益广泛，尤其在远程监控、紧急救援等复杂场景中展现出独特优势。然而，该领域长期缺乏大规模、多模态且具有挑战性的基准数据集，制约了相关算法的研发与评估。在此背景下，新加坡科技设计大学与山东大学的研究团队于2021年联合推出了UAV-Human数据集。该数据集通过搭载多传感器的无人机，在长达三个月的时间内，跨越城乡45个不同地点，采集了涵盖白天与夜间的多模态视频序列，旨在为无人机视角下的人类行为理解——包括动作识别、姿态估计、行人重识别及属性识别等核心任务——提供一个全面而真实的评估平台。其丰富的场景多样性、复杂的环境条件以及精细的标注体系，显著推动了无人机视觉分析领域的研究进展。

当前挑战

UAV-Human数据集所针对的无人机视角人类行为理解问题，本身面临诸多固有挑战：无人机快速移动与姿态变化导致视频中存在显著的运动模糊、视角剧烈变动以及目标分辨率持续波动；复杂多变的户外光照、天气条件及遮挡进一步增加了行为分析的难度。在数据集构建过程中，研究团队亦需克服一系列困难：为覆盖真实应用场景的多样性，需在长达三个月内协调大量受试者，于不同时间、天气及地理环境下进行数据采集；同时，整合鱼眼、夜视、红外及深度等多种传感器，并确保多模态数据间的同步与校准，构成了技术上的重大挑战；此外，对超过六万段视频序列进行跨四大任务的精细化标注，亦是一项耗费巨大人力物力的工程。

常用场景

经典使用场景

在无人机视觉分析领域，UAV-Human数据集作为一项大规模多模态基准，广泛应用于人类行为理解任务。该数据集通过搭载多种传感器的无人机在城乡环境中采集，覆盖了动作识别、姿态估计、行人重识别及属性识别四大核心任务。其经典使用场景在于为研究人员提供了一个高度多样化的测试平台，能够模拟真实世界中无人机视角下的复杂条件，如动态背景、光照变化及天气干扰，从而推动模型在多变环境下的鲁棒性研究。

实际应用

在实际应用层面，UAV-Human数据集为无人机在安防监控、灾害救援及城市管理等领域提供了重要参考。例如，在夜间或恶劣天气下，通过红外与夜视模态数据，无人机能够执行人员搜救或异常行为检测任务；其广角鱼眼视频则适用于大范围区域监控，帮助识别群体活动或追踪目标轨迹。这些应用场景体现了数据集在提升无人机自主决策与实时分析能力方面的实用价值，推动了相关技术从实验室向现实世界的转化。

衍生相关工作

基于UAV-Human数据集，研究者们衍生出一系列经典工作，特别是在鱼眼视频动作识别与多模态融合方向。例如，论文中提出的引导变换器I3D网络，通过利用平面RGB视频指导鱼眼视频的畸变校正，显著提升了动作识别性能。此外，该数据集还激发了针对骨架模态的图卷积网络优化、行人重识别中的视角不变特征学习，以及属性识别中的跨环境适应方法，这些工作进一步拓展了无人机视觉分析的算法边界与理论深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集