HUMAR-2024

Name: HUMAR-2024
Creator: LIRMM, University of Montpellier, Montpellier, France; LAAS-CNRS, Université Paul Sabatier, CNRS, Toulouse, France; Nantes Université, École Centrale Nantes, CNRS, LS2N, UMR 6004, 1, rue de la Noe, 44321 Nantes, France; IPAL, CNRS
Published: 2025-10-21 15:44:26
License: 暂无描述

arXiv2025-10-21 更新2025-10-23 收录

下载链接：

https://gitlab.laas.fr/msabbah/rt-cosmik

下载链接

链接失效反馈

官方服务：

资源简介：

HUMAR-2024数据集是由LIRMM, University of Montpellier, Montpellier, France等机构创建的，包含11名参与者进行的各种动作。数据集包含2200个动作实例，涵盖了17个不同的动作标签，包括站立、行走、坐下、蹲下等。数据集旨在用于实时人体动作识别，通过使用双全局快门高清灰度相机捕获视频数据，并使用双目视觉技术进行3D姿态估计。数据集的创建过程严格遵循了国际生物力学协会的指南，确保了生物力学的准确性和一致性。该数据集适用于人机交互、协作机器人等领域，旨在解决实时人体动作识别的挑战。

The HUMAR-2024 dataset was developed by institutions including LIRMM, University of Montpellier, Montpellier, France, and other relevant entities. It includes 2200 action instances collected from 11 participants, covering 17 distinct action labels such as standing, walking, sitting, squatting, and more. Designed for real-time human action recognition, this dataset captures video data via dual global-shutter high-definition grayscale cameras and performs 3D pose estimation using binocular vision technology. The dataset was constructed strictly in compliance with the guidelines of the International Society of Biomechanics, ensuring biomechanical accuracy and consistency. It is applicable to domains such as human-computer interaction and collaborative robotics, aiming to resolve the challenges associated with real-time human action recognition.

提供机构：

LIRMM, University of Montpellier, Montpellier, France; LAAS-CNRS, Université Paul Sabatier, CNRS, Toulouse, France; Nantes Université, École Centrale Nantes, CNRS, LS2N, UMR 6004, 1, rue de la Noe, 44321 Nantes, France; IPAL, CNRS

创建时间：

2025-10-21

搜集汇总

数据集介绍

构建方式

HUMAR-2024数据集的构建采用了双摄像头立体视觉系统，通过两台全局快门高清灰度相机以10Hz帧率同步采集数据。实验招募了11名参与者，涵盖不同性别与体型特征，在连续3分钟的试验中执行20类动作，包括稳态运动、过渡动作、指令动作及背景行为四大类别。数据采集过程遵循严格的伦理审查标准，通过屏幕提示引导参与者响应随机间隔的动作指令，确保动作序列的自然性与多样性。原始视频数据经过三角测量与LSTM网络增强处理，结合生物力学模型进行逆向运动学计算，最终提取出22维关节角度向量作为核心特征。

使用方法

使用该数据集时需通过滑动窗口机制提取连续时间序列，将20帧（对应2秒时长）的关节角度序列输入Transformer网络进行实时动作识别。模型采用因果掩码确保时序因果关系，结合逐时间步分类损失与时序平滑损失共同优化网络参数。针对不同肢体动作的识别需求，可灵活选择躯干与下肢的12个关节角度分析运动类别，或采用躯干与上肢的18个关节角度处理指令动作。在部署阶段建议配置2秒时序缓冲窗口，通过多数投票策略提升识别稳定性，以满足实时人机交互系统的响应要求。

背景与挑战

背景概述

HUMAR-2024数据集于2024年由法国蒙彼利德大学、图卢兹大学及南特大学等机构联合创建，聚焦于工业环境中实时人机交互的在线动作识别问题。该数据集通过双摄像头采集11名受试者执行20种连续动作的3D运动数据，涵盖稳态运动、过渡动作、指令动作及背景动作四大类别，旨在解决传统离线动作识别方法在动态机器人控制中的局限性。其创新性地引入基于生物力学模型的关节角度估计，显著提升了动作识别的视角不变性与跨环境鲁棒性，为人机协作研究提供了高精度、实时化的数据基础。

当前挑战

该数据集致力于应对在线动作识别领域的核心挑战：如何在连续未分割视频流中实现高精度实时动作分类，同时克服视角变化与个体运动差异的干扰。构建过程中面临多重技术难题：首先，从噪声密集的2D关键点中稳定提取符合生物力学约束的3D关节角度需融合三角测量、LSTM滤波与逆向运动学优化；其次，数据标注需平衡多标签动作的时序重叠问题，尤其需精准捕捉瞬态过渡动作的短暂动态特征；此外，受硬件限制，10Hz的采集频率与有限样本量进一步增加了模型泛化与实时处理的复杂度。

常用场景

经典使用场景

在工业人机交互领域，HUMAR-2024数据集通过双摄像头采集的连续动作序列，为实时动作识别研究提供了关键数据支撑。该数据集涵盖站立、行走、手势指令等17类精细动作标签，其独特价值在于融合了生物力学先验知识，将传统关节中心坐标转换为更具解释性的关节角度特征。这种表征方式有效克服了视角变化和个体体型差异对识别精度的影响，为开发鲁棒性强的在线动作识别系统奠定了数据基础。

解决学术问题

该数据集显著推进了在线动作识别领域的三个核心问题：首先通过关节角度表征解决了视角不变性难题，使模型在动态相机视角下仍保持88.1%的识别准确率；其次创新性地采用时间因果掩码机制，确保实时识别过程严格遵循时序因果律；最后通过结合分类损失与平滑损失的复合目标函数，有效缓解了连续帧识别结果的抖动现象。这些突破使得工业场景中连续无分割的动作流实时解析成为可能。

实际应用

在工业机器人协作场景中，该数据集支撑的动作识别系统已成功应用于模拟书法机器人控制实验。通过实时解析人体坐立、手势指令等动作，系统驱动机械臂完成提笔、运笔等精细操作，验证了其在动态人机协作任务中的实用性。这种基于视觉的交互方案无需穿戴设备，为智能制造、康复训练等领域提供了非侵入式的动作感知解决方案，显著降低了工业现场部署门槛。

数据集最近研究