five

UAV-Human|无人机视觉数据集|人体动作识别数据集

收藏
github2024-11-12 更新2024-11-13 收录
无人机视觉
人体动作识别
下载链接:
https://github.com/jiwangyihao/Comp-UAV-Skeleton
下载链接
链接失效反馈
资源简介:
UAV-Human数据集是专门针对航拍人类行为的高质量数据集,由Pengfei Zhu等人于2021年提出。该数据集旨在推动无人机视觉领域的人体动作识别研究,具有以下特点:多模态数据、丰富的动作类别、复杂的环境条件、高空间分辨率和时间分辨率。
创建时间:
2024-10-26
原始信息汇总

数据集概述

UAV-Human数据集

UAV-Human 数据集是专门针对航拍人类行为的高质量数据集,由 Pengfei Zhu 等人于 2021 年提出。该数据集旨在推动无人机视觉领域的人体动作识别研究,具有以下特点:

  • 多模态数据:提供 RGB 图像、深度图像和骨架数据等多模态信息,支持多视角和多尺度的分析。
  • 丰富的动作类别:涵盖 155 种动作类别,包括行走、跑步、跳跃、挥手等,具有高动作多样性。
  • 复杂的环境条件:数据集在不同的天气、光照和背景条件下采集,包含了遮挡、视角变化和尺度变化等挑战因素。
  • 高空间分辨率和时间分辨率:确保对细微动作和姿态变化的捕捉,为精细化的动作识别提供了可能。

模型架构

主干模型

  1. BlockGCN 模型

    • 图卷积操作:采用分块图卷积方法来降低计算量,提高效率。
    • 多层分块卷积:包含多个分块卷积层,逐层聚合骨架结构的局部信息到全局,有效提取动作的时空特征。
  2. Skeleton-MixFormer 模型

    • 查询 (Q)、键 (K)、值 (V) 投影:将输入骨架序列投影到 Q、K、V 空间。
    • 自注意力计算:通过多头自注意力机制,捕捉帧和关节之间的长距离依赖关系。

增强模型

  1. FR-Head(多尺度特征提取)

    • 通过多尺度卷积提取特征,并加权求和得到最终融合特征。
  2. SiT-MLP(非线性时空建模)

    • 利用 MLP 结构,对骨架数据的时空特征进行非线性建模。
  3. CHASE(层次化注意力机制)

    • 通过层次化注意力机制,在帧和关节级别上实现自适应特征选择。

模型融合

加权融合模型

  • 公式:通过加权组合多个子模型的预测结果,获得最终预测。
  • 伪逆法最小二乘求解 Ensemble 初始权重:通过伪逆法最小二乘求解获得全局最优的初始权重组合。
  • 贝叶斯优化微调权重:使用贝叶斯优化对初始权重进行精细化微调,逐步接近融合模型的最优解。

项目复现

环境配置

  • 使用 conda 安装基本环境。
  • 运行 pip install -e torchlight

数据处理

  • 使用 gen_modal 生成多模态数据。
  • 将处理后的数据分别置于 Skeleton-MixFormer/dataFR-Head/dataCHASE/dataSiT-MLP/dataBlockGCN/data 中。

模型训练

  • 分别训练 Skeleton-MixFormerFR-HeadSiT-MLPBlockGCNCHASE 模型。

生成预测

  • 在各模型目录下执行预测脚本,生成预测结果。

模型融合

  • 编辑 ensemble.py 文件,将五类模型的所有模态载入。
  • 运行 ensemble.py 启动权重优化及组合预测结果生成。
AI搜集汇总
数据集介绍
main_image_url
构建方式
UAV-Human数据集的构建旨在应对无人机视角下人体动作识别的复杂挑战。该数据集通过多模态数据采集,包括RGB图像、深度图像和骨架数据,覆盖了多种复杂环境条件,如多视角变化、动态背景和遮挡。数据集的构建过程中,采用了先进的传感器技术和数据处理算法,确保了高空间和时间分辨率,从而捕捉到细微的动作和姿态变化。此外,数据集还采用了5*2的交叉验证策略,结合多模型集成方法,如Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE,以提升动作识别的准确性和鲁棒性。
使用方法
使用UAV-Human数据集进行研究时,首先需要下载并解压数据集文件,然后根据具体需求进行数据预处理。数据集提供了详细的训练和验证数据,用户可以根据需要选择不同的模态数据进行训练和测试。在模型训练阶段,用户可以选择多种先进的模型架构,如Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE,并根据配置文件进行参数调整。训练完成后,可以通过生成预测文件进行模型评估。此外,数据集还支持多模型融合,用户可以通过加权融合策略进一步提升模型的识别性能。
背景与挑战
背景概述
随着无人机(Unmanned Aerial Vehicle, UAV)技术的迅速发展,基于无人机的视觉应用在安防监控、体育分析和人机交互等领域得到了广泛关注。UAV-Human数据集由Pengfei Zhu等人于2021年提出,旨在推动无人机视觉领域的人体动作识别研究。该数据集涵盖了RGB图像、深度图像和骨架数据等多模态信息,包含155种动作类别,并在不同的天气、光照和背景条件下采集,具有高空间和时间分辨率,为精细化的动作识别提供了可能。
当前挑战
UAV-Human数据集在构建过程中面临多视角变化、动态背景、遮挡等复杂场景的挑战,这些因素对动作识别的准确性和鲁棒性提出了高要求。此外,数据集的多模态特性要求模型能够有效融合不同类型的数据,以提升识别性能。在模型设计方面,如何平衡全局搜索和局部优化,以及如何捕捉骨架数据中的复杂时空关系,也是该数据集研究中的重要挑战。
常用场景
经典使用场景
UAV-Human数据集在无人机视角下的人体动作识别任务中展现了其经典应用场景。该数据集通过提供多模态数据,包括RGB图像、深度图像和骨架数据,支持多视角和多尺度的分析。在复杂的环境条件下,如多变的天气、光照和背景,UAV-Human数据集能够有效捕捉细微动作和姿态变化,为动作识别算法提供了丰富的训练和测试数据。通过集成多种先进模型,如Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE,UAV-Human数据集在提升动作识别准确性和鲁棒性方面发挥了关键作用。
解决学术问题
UAV-Human数据集解决了无人机视觉领域中人体动作识别的多个学术研究问题。首先,它通过提供多模态数据,解决了传统方法在处理单一数据源时难以捕捉复杂动作的问题。其次,数据集在不同环境条件下的采集,有效解决了动作识别算法在真实世界中应用时的泛化能力问题。此外,UAV-Human数据集的高空间和时间分辨率,为研究者提供了精细化动作识别的可能,推动了图卷积网络(GCN)和Transformer在骨架动作识别中的应用,提升了模型对空间和时间复杂关联的捕捉能力。
实际应用
UAV-Human数据集在实际应用中具有广泛的应用场景。在安防监控领域,无人机可以利用该数据集训练的模型进行实时人体动作识别,提升监控系统的智能化水平。在体育分析中,UAV-Human数据集可以帮助分析运动员的动作细节,优化训练方案。此外,在人机交互领域,无人机可以通过识别用户的动作指令,实现更加自然和直观的交互方式。这些应用不仅提升了无人机在各领域的实用性,也推动了相关技术的商业化进程。
数据集最近研究
最新研究方向
在无人机视角下的人体动作识别领域,UAV-Human数据集的最新研究方向主要集中在多模型集成和复杂场景下的鲁棒性提升。研究者们通过集成Skeleton-MixFormer、FR-Head、SiT-MLP、BlockGCN和CHASE等多种先进模型,利用多模态特征在5*2交叉验证策略下进行训练,以应对多视角变化、动态背景和遮挡等挑战。此外,最小二乘增强的贝叶斯优化方法被引入,通过伪逆法最小二乘求解初始权重,并基于高斯过程的贝叶斯优化进行精细化微调,显著提升了集成模型在验证集上的表现。这些研究不仅推动了无人机视觉应用的发展,也为复杂环境下的动作识别提供了新的解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

ST-EVCDP

这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录