人指手势数据集

Name: 人指手势数据集
Creator: 瑞典皇家理工学院
Published: 2025-09-16 17:30:42
License: 暂无描述

arXiv2025-09-16 更新2025-11-21 收录

下载链接：

https://github.com/xbpeng/DeepMimic

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由瑞典皇家理工学院的研究人员收集，包含83个单人指点和两个目标的指点和放置动作，涵盖多种手势风格、左右手和周围3D空间中的均匀分布目标位置。数据集由光学动作捕捉系统记录，包括演员的关节位置和目标位置。数据集还包括演员在指点时记录的语音，为训练模型生成指点行为和识别指点时间提供了额外上下文。该数据集可用于生成指点行为、训练模型识别指点手势和指点目标位置。

This dataset was collected by researchers from the KTH Royal Institute of Technology. It contains 83 instances of pointing and placing actions performed by a single individual targeting two distinct objects, covering diverse gesture styles, both left-hand and right-hand movements, as well as uniformly distributed target positions across the surrounding 3D space. Recorded using an optical motion capture system, the dataset captures the joint positions of the performer and the positions of the targets. Additionally, the dataset includes speech recordings collected while the performer conducted pointing actions, providing extra contextual information for training models to generate pointing behaviors and recognize the timing of pointing actions. This dataset can be used to generate pointing behaviors, train models to recognize pointing gestures, and identify the target positions of pointing actions.

提供机构：

瑞典皇家理工学院

创建时间：

2025-09-16

搜集汇总

数据集介绍

构建方式

在光学动作捕捉实验室中，研究人员通过16台Optitrack Prime 41摄像机记录了演员执行单目标指向、双目标选择及双目标放置任务时的全身运动数据。演员穿戴50个被动标记点的动作捕捉服、Manus数据手套及头戴式iPhone 12设备，同步采集了关节位置、目标空间坐标及语音信息。实验设计覆盖了周围三维空间中的多象限目标分布，并通过位移峰值自动分割动作片段，最终构建出包含83组单目标指向动作的数据集。

特点

该数据集以运动动力学多样性为核心特征，同时记录了左右手主导的指向动作，展现出不同的速度分布与运动轨迹模式。目标位置在前后左右上下六个象限均匀分布，且包含伴随指向的同步语音语境。数据分析显示人类指向行为并非追求最小对齐角度，其运动精度与动态特征为机器人指向生成研究提供了真实参照。

使用方法

该数据集适用于基于物理仿真的强化学习训练，可通过运动模仿奖励与任务奖励的加权组合优化控制策略。研究者可将目标位置作为策略网络输入，利用几何对齐角度设计指向精度奖励函数，同时结合对抗运动先验方法提升动作平滑度。数据集还可用于开发多模态模型，通过语音与运动数据的关联分析提升指向时机识别与语境感知能力。

背景与挑战

背景概述

人指手势数据集由瑞典皇家理工学院的研究团队于2025年创建，旨在解决人机交互中动态手势生成的瓶颈问题。该数据集通过高精度光学动作捕捉系统记录人类指向手势的三维运动轨迹，涵盖单目标指向、双目标选择与放置等多种交互场景。其核心研究聚焦于结合强化学习与运动模仿技术，生成具有环境感知能力的人类化指向动作，推动社交机器人自然交互能力的发展。

当前挑战

该数据集需应对两大挑战：在领域问题层面，传统指向手势研究过度依赖几何对齐角度指标，而人类实际指向存在速度波动与轨迹多样性，需平衡动作精度与动态自然性；在构建过程中，高密度动作捕捉数据需同步处理语音、手势与空间坐标，且需设计物理模拟环境下的强化学习奖励函数以协调任务完成度与运动拟人化。

常用场景

经典使用场景

在社交机器人交互领域，人指手势数据集通过高精度动作捕捉技术记录了人类执行单目标指向、双目标选择及放置任务时的三维运动轨迹。该数据集以其丰富的手势风格、左右手差异及空间目标分布特性，成为训练强化学习模型模仿人类指向动态的基准资源，为生成兼具任务精度与运动自然度的机器人指向行为提供了数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括DeepMimic与对抗运动先验（AMP）框架的指向动作生成模型，这些工作将运动模仿学习与强化学习相结合，实现了物理仿真环境中自适应指向行为。后续研究进一步拓展至多模态输入融合，如结合眼动数据与语音上下文生成解释性指向轨迹，推动了具身交互系统在动态环境中的泛化能力。

数据集最近研究