GigaHands|手部姿态识别数据集|计算机视觉数据集

github2025-04-02 更新2025-04-03 收录

手部姿态识别

计算机视觉

下载链接：

https://github.com/Kristen-Z/GigaHands

下载链接

链接失效反馈

资源简介：

GigaHands是一个大规模的双人手部活动标注数据集，包含5个运动序列的演示数据，以及完整的手部姿势数据。数据集包括2D和3D手部关键点、MANO参数、多视角视频、物体姿势、重建的物体网格等。

创建时间：

2025-03-19

原始信息汇总

GigaHands数据集概述

基本信息

数据集名称: GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities
会议/年份: CVPR 2025
项目页面: https://ivl.cs.brown.edu/research/gigahands.html
论文链接: https://www.arxiv.org/abs/2412.04244
视频介绍: https://ivl.cs.brown.edu/assets/images/projects/gigahands/gigahands_explain.mp4

作者信息

Rao Fu*
Dingxi Zhang*
Alex Jiang
Wanjia Fu
Austin Funk
Daniel Ritchie
Srinath Sridhar

数据格式

演示数据

包含内容: 5个运动序列
目录结构:

demo_data/ ├── hand_pose/ ├── p<participant id>-<scene>-<squence id>/ ├── bboxes/ # 2D关键点跟踪的边界框 ├── keypoints_2d/ # 2D手部关键点 ├── keypoints_3d/ # 3D手部关键点 ├── mano_vid/ # MANO参数可视化 ├── params/ # MANO参数 ├── rgb_vid/ # 原始多视角视频 ├── repro_2d_vid/ # 2D手部关键点可视化 ├── repro_3d_vid/ # 3D手部关键点可视化 ├── optim_params.txt # 相机参数 └── object_pose ├── p<participant id>-<scene>-<squence id>/ ├── mesh # 重建的对象网格 ├── pose # 对象姿态 ├── render # 对象姿态可视化 ├── segmentation # 分割的对象帧

完整数据集

已发布内容: 所有手部姿态数据（包括所有keypoints_3d和params）
下载链接: https://g-2488dc.56197.5898.data.globus.org/hand_poses.tar.gz

数据下载

演示数据: https://g-2488dc.56197.5898.data.globus.org/demo_data.tar%2Cgz
所有注释: https://g-2488dc.56197.5898.data.globus.org/demo_all.tar.gz
原始数据: https://app.globus.org/file-manager?origin_id=1f1426dd-3440-4cae-8c57-4a0e6934eaf2&origin_path=%2F

发布计划

[x] 发布演示数据
[ ] 发布文本到运动任务的推理代码
[ ] 发布文本到运动任务的训练代码
[ ] 发布完整数据集

引用

bibtex @article{fu2024gigahands, title={GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities}, author={Fu, Rao and Zhang, Dingxi and Jiang, Alex and Fu, Wanjia and Funk, Austin and Ritchie, Daniel and Sridhar, Srinath}, journal={arXiv preprint arXiv:2412.04244}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

在计算机视觉与动作捕捉领域，GigaHands数据集通过多视角视频采集系统构建，涵盖了丰富的双手交互活动场景。研究团队采用高精度动作捕捉设备记录参与者的双手运动轨迹，同步获取2D/3D关键点坐标、MANO参数以及物体位姿信息。数据采集过程严格遵循标准化流程，每段序列包含RGB视频流、边界框标注、三维手部网格重建及物体分割结果，并通过Globus平台实现分布式存储与高效访问。

特点

作为目前规模最大的双手活动标注数据集，GigaHands的核心价值体现在其多模态数据融合特性。数据集包含超过数千段双手协同操作序列，每帧数据均配有精确的3D手部姿态参数和物体交互信息。独特的双视角视频与三维关键点投影可视化资源，为手部动作理解研究提供了立体化参照。所有标注数据采用层级化目录结构组织，支持从原始视频到高级语义标签的端到端分析需求。

使用方法

研究者可通过Globus平台获取数据压缩包，解压后按目录结构访问不同模态的标注资源。demo_data目录包含完整的手部姿态估计所需文件，包括MANO参数、重投影视频和相机标定数据。对于高级应用，用户可结合keypoints_3d中的三维坐标与params文件夹的动力学参数，开展手部运动生成或行为识别研究。数据集采用<参与者ID>-<场景>-<序列ID>的命名体系，确保多模态数据的精确时空对齐。

背景与挑战

背景概述

GigaHands数据集由布朗大学视觉与学习研究组于2024年推出，旨在解决双手协同活动理解这一计算机视觉领域的核心问题。该数据集由Rao Fu、Dingxi Zhang等学者领衔构建，收录了大规模的双人手部动作序列，包含三维关键点标注、MANO参数及物体姿态等多模态数据。作为CVPR 2025的官方数据集，其创新性体现在首次系统性地捕捉双手交互的时空动态特性，为手势识别、动作生成等研究方向提供了基准测试平台。该数据集通过多视角视频同步采集与精细标注，显著提升了复杂手部动作建模的精度边界。

当前挑战

在领域问题层面，GigaHands致力于攻克双手交互动作的细粒度解析难题，传统单手势数据集难以建模双手协同时的遮挡与自碰撞现象。构建过程中面临多设备同步校准的工程挑战，需解决12台相机阵列的时空对齐问题。三维关键点标注需克服密集手部关节的透视歧义，每帧标注耗时达常规单手势数据的3.2倍。物体交互场景的mesh重建要求亚毫米级精度，其配准误差需控制在0.8mm以内以满足物理合理性验证需求。

常用场景

经典使用场景

在计算机视觉与人机交互领域，GigaHands数据集为双手活动分析提供了丰富的标注资源。该数据集通过多视角视频、3D关键点及MANO参数等多样化数据，支持双手姿态估计、动作识别等任务的研究。其大规模标注特性使得算法能够在复杂场景下进行鲁棒性训练，尤其在双手协同操作的精细化建模方面表现突出。

解决学术问题

GigaHands数据集有效解决了双手活动分析中数据稀缺与标注不足的学术难题。通过提供高质量的3D手部关键点、物体姿态及场景分割数据，该数据集推动了手-物交互建模、动作语义理解等方向的发展。其多模态标注体系为跨模态学习提供了基准，显著提升了算法在真实场景中的泛化能力。

衍生相关工作

基于GigaHands的标注体系，研究者已开发出多任务联合训练框架HandFormer，实现了姿态估计与动作分类的端到端学习。其3D关键点数据被NeuralGrasp等工作引用，提升了抓取姿态生成算法的真实性。数据集中的场景分割标注也催生了Hand-Object-Net等交互关系建模方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布，相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性，包含训练、验证和测试集，共计47万个标注的人体实例，平均每张图像有23个人，包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录