UAV-Human
收藏github2024-11-12 更新2024-11-13 收录
下载链接:
https://github.com/jiwangyihao/Comp-UAV-Skeleton
下载链接
链接失效反馈资源简介:
UAV-Human数据集是专门针对航拍人类行为的高质量数据集,由Pengfei Zhu等人于2021年提出。该数据集旨在推动无人机视觉领域的人体动作识别研究,具有以下特点:多模态数据、丰富的动作类别、复杂的环境条件、高空间分辨率和时间分辨率。
The UAV-Human dataset is a high-quality dataset specifically designed for aerial human behavior research, proposed by Pengfei Zhu et al. in 2021. This dataset aims to advance human action recognition research in the field of drone vision, and has the following characteristics: multimodal data, diverse action categories, complex environmental conditions, high spatial resolution and high temporal resolution.
创建时间:
2024-10-26
原始信息汇总
数据集概述
UAV-Human数据集
UAV-Human 数据集是专门针对航拍人类行为的高质量数据集,由 Pengfei Zhu 等人于 2021 年提出。该数据集旨在推动无人机视觉领域的人体动作识别研究,具有以下特点:
- 多模态数据:提供 RGB 图像、深度图像和骨架数据等多模态信息,支持多视角和多尺度的分析。
- 丰富的动作类别:涵盖 155 种动作类别,包括行走、跑步、跳跃、挥手等,具有高动作多样性。
- 复杂的环境条件:数据集在不同的天气、光照和背景条件下采集,包含了遮挡、视角变化和尺度变化等挑战因素。
- 高空间分辨率和时间分辨率:确保对细微动作和姿态变化的捕捉,为精细化的动作识别提供了可能。
模型架构
主干模型
-
BlockGCN 模型
- 图卷积操作:采用分块图卷积方法来降低计算量,提高效率。
- 多层分块卷积:包含多个分块卷积层,逐层聚合骨架结构的局部信息到全局,有效提取动作的时空特征。
-
Skeleton-MixFormer 模型
- 查询 (Q)、键 (K)、值 (V) 投影:将输入骨架序列投影到 Q、K、V 空间。
- 自注意力计算:通过多头自注意力机制,捕捉帧和关节之间的长距离依赖关系。
增强模型
-
FR-Head(多尺度特征提取)
- 通过多尺度卷积提取特征,并加权求和得到最终融合特征。
-
SiT-MLP(非线性时空建模)
- 利用 MLP 结构,对骨架数据的时空特征进行非线性建模。
-
CHASE(层次化注意力机制)
- 通过层次化注意力机制,在帧和关节级别上实现自适应特征选择。
模型融合
加权融合模型
- 公式:通过加权组合多个子模型的预测结果,获得最终预测。
- 伪逆法最小二乘求解 Ensemble 初始权重:通过伪逆法最小二乘求解获得全局最优的初始权重组合。
- 贝叶斯优化微调权重:使用贝叶斯优化对初始权重进行精细化微调,逐步接近融合模型的最优解。
项目复现
环境配置
- 使用
conda安装基本环境。 - 运行
pip install -e torchlight。
数据处理
- 使用
gen_modal生成多模态数据。 - 将处理后的数据分别置于
Skeleton-MixFormer/data、FR-Head/data、CHASE/data、SiT-MLP/data和BlockGCN/data中。
模型训练
- 分别训练
Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE模型。
生成预测
- 在各模型目录下执行预测脚本,生成预测结果。
模型融合
- 编辑
ensemble.py文件,将五类模型的所有模态载入。 - 运行
ensemble.py启动权重优化及组合预测结果生成。
搜集汇总
数据集介绍

构建方式
UAV-Human数据集的构建旨在应对无人机视角下人体动作识别的复杂挑战。该数据集通过多模态数据采集,包括RGB图像、深度图像和骨架数据,覆盖了多种复杂环境条件,如多视角变化、动态背景和遮挡。数据集的构建过程中,采用了先进的传感器技术和数据处理算法,确保了高空间和时间分辨率,从而捕捉到细微的动作和姿态变化。此外,数据集还采用了5*2的交叉验证策略,结合多模型集成方法,如Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE,以提升动作识别的准确性和鲁棒性。
使用方法
使用UAV-Human数据集进行研究时,首先需要下载并解压数据集文件,然后根据具体需求进行数据预处理。数据集提供了详细的训练和验证数据,用户可以根据需要选择不同的模态数据进行训练和测试。在模型训练阶段,用户可以选择多种先进的模型架构,如Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE,并根据配置文件进行参数调整。训练完成后,可以通过生成预测文件进行模型评估。此外,数据集还支持多模型融合,用户可以通过加权融合策略进一步提升模型的识别性能。
背景与挑战
背景概述
随着无人机(Unmanned Aerial Vehicle, UAV)技术的迅速发展,基于无人机的视觉应用在安防监控、体育分析和人机交互等领域得到了广泛关注。UAV-Human数据集由Pengfei Zhu等人于2021年提出,旨在推动无人机视觉领域的人体动作识别研究。该数据集涵盖了RGB图像、深度图像和骨架数据等多模态信息,包含155种动作类别,并在不同的天气、光照和背景条件下采集,具有高空间和时间分辨率,为精细化的动作识别提供了可能。
当前挑战
UAV-Human数据集在构建过程中面临多视角变化、动态背景、遮挡等复杂场景的挑战,这些因素对动作识别的准确性和鲁棒性提出了高要求。此外,数据集的多模态特性要求模型能够有效融合不同类型的数据,以提升识别性能。在模型设计方面,如何平衡全局搜索和局部优化,以及如何捕捉骨架数据中的复杂时空关系,也是该数据集研究中的重要挑战。
常用场景
经典使用场景
UAV-Human数据集在无人机视角下的人体动作识别任务中展现了其经典应用场景。该数据集通过提供多模态数据,包括RGB图像、深度图像和骨架数据,支持多视角和多尺度的分析。在复杂的环境条件下,如多变的天气、光照和背景,UAV-Human数据集能够有效捕捉细微动作和姿态变化,为动作识别算法提供了丰富的训练和测试数据。通过集成多种先进模型,如Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE,UAV-Human数据集在提升动作识别准确性和鲁棒性方面发挥了关键作用。
解决学术问题
UAV-Human数据集解决了无人机视觉领域中人体动作识别的多个学术研究问题。首先,它通过提供多模态数据,解决了传统方法在处理单一数据源时难以捕捉复杂动作的问题。其次,数据集在不同环境条件下的采集,有效解决了动作识别算法在真实世界中应用时的泛化能力问题。此外,UAV-Human数据集的高空间和时间分辨率,为研究者提供了精细化动作识别的可能,推动了图卷积网络(GCN)和Transformer在骨架动作识别中的应用,提升了模型对空间和时间复杂关联的捕捉能力。
实际应用
UAV-Human数据集在实际应用中具有广泛的应用场景。在安防监控领域,无人机可以利用该数据集训练的模型进行实时人体动作识别,提升监控系统的智能化水平。在体育分析中,UAV-Human数据集可以帮助分析运动员的动作细节,优化训练方案。此外,在人机交互领域,无人机可以通过识别用户的动作指令,实现更加自然和直观的交互方式。这些应用不仅提升了无人机在各领域的实用性,也推动了相关技术的商业化进程。
数据集最近研究
最新研究方向
在无人机视角下的人体动作识别领域,UAV-Human数据集的最新研究方向主要集中在多模型集成和复杂场景下的鲁棒性提升。研究者们通过集成Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE等多种先进模型,利用多模态特征在5*2交叉验证策略下进行训练,以应对多视角变化、动态背景和遮挡等挑战。此外,最小二乘增强的贝叶斯优化方法被引入,通过伪逆法最小二乘求解初始权重,并基于高斯过程的贝叶斯优化进行精细化微调,显著提升了集成模型在验证集上的表现。这些研究不仅推动了无人机视觉应用的发展,也为复杂环境下的动作识别提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



