five

hand_tracking_lerobot_dataset

收藏
Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/raffaelkultyshev/hand_tracking_lerobot_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个专业的手部追踪数据集,包含高质量的手部操作任务视频和42个手部关节的时间同步3D位置和方向角度数据,适用于训练人工智能驱动的机器人系统。
创建时间:
2025-11-24
原始信息汇总

手部追踪机器人数据集概述

数据集简介

专业级手部追踪数据集,采用LeRobot格式,专为训练AI驱动的机器人系统设计,适用于Figure AI和Physical Intelligence等公司。

数据集内容

  • 视频数据:第一人称视角录制的手部操作任务视频
  • 关节位置:42个手部关节的3D坐标(x、y、z)和方向角度(roll、pitch、yaw)
  • 时间数据:所有帧的时间同步关节位置
  • 元数据:完整的片段信息和数据集统计信息

数据集统计

  • 总片段数:5
  • 总帧数:16,861
  • 帧率:约60 fps(各片段可变)
  • 关节数:42(每只手21个关节×2只手)
  • 每个关节维度:6(x、y、z、roll、pitch、yaw)
  • 状态向量大小:252(42个关节×6个维度)

数据结构

lerobot_dataset/ ├── data/ │ └── chunk-000/ │ ├── episode_000000.parquet │ ├── episode_000001.parquet │ ├── episode_000002.parquet │ ├── episode_000003.parquet │ └── episode_000004.parquet ├── videos/ │ └── chunk-000/ │ └── cam_high/ │ ├── episode_000000.mp4 │ ├── episode_000001.mp4 │ ├── episode_000002.mp4 │ ├── episode_000003.mp4 │ └── episode_000004.mp4 ├── meta/ │ └── info.json └── README.md

关节结构

每只手包含21个关节,遵循MediaPipe手部标志点结构:

左/右手关节:

  1. 手腕
  2. 拇指:CMC、MCP、IP、指尖
  3. 食指:MCP、PIP、DIP、指尖
  4. 中指:MCP、PIP、DIP、指尖
  5. 无名指:MCP、PIP、DIP、指尖
  6. 小指:MCP、PIP、DIP、指尖

每个关节维度:

  • xyz:3D位置(归一化坐标)
  • rollpitchjaw:方向角度(度)

数据格式

Parquet文件

每个片段存储为Parquet文件,包含以下列:

  • episode_index:片段编号(int32)
  • frame_index:片段内帧编号(int32)
  • timestamp:从片段开始的时间(秒,float32)
  • observation.state:252个float32值的数组,表示所有关节位置
  • action:252个float32值的数组(与observation.state相同,用于模仿学习)

状态向量布局

observation.state数组组织为:

[左手手腕_x, 左手手腕_y, 左手手腕_z, 左手手腕_roll, 左手手腕_pitch, 左手手腕_jaw, 左手拇指_cmc_x, ..., 右手小指_指尖_jaw]

总计:42个关节×6个维度=252个值

片段信息

片段 运行名称 帧数 帧率 持续时间(秒)
0 Run_1 3,625 59.8 ~60.6
1 Run_2 3,921 59.6 ~65.8
2 Run_3 2,941 59.9 ~49.1
3 Run_4 3,388 59.5 ~57.0
4 Run_5 2,986 59.6 ~50.1

数据收集

设备

  • 相机:iPhone(头戴式或固定位置)
  • 追踪:MediaPipe Hands(模型复杂度0)
  • 分辨率:可变
  • 帧率:约60 fps

处理流程

  • 使用MediaPipe提取手部标志点
  • 3D位置归一化到相机坐标
  • 从手掌几何计算方向角度
  • 按关节/维度存储为时间序列数据

质量说明

  • 当手部未被检测到时,某些帧可能包含NaN值
  • 数据与视频逐帧同步
  • 关节位置已归一化(x、y通常在0-1范围内)
  • 方向角度以度为单位

训练分割

  • 训练集:片段0-3(4个片段,约13,875帧)
  • 测试集:片段4(1个片段,约2,986帧)

使用要求

  • Python 3.7+
  • pandas
  • pyarrow(用于Parquet支持)
  • numpy
  • plotly(用于可视化,可选)
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人手部运动研究领域,该数据集通过头戴式或固定位置iPhone设备采集第一视角视频,运用MediaPipe Hands模型以约60帧率提取手部关键点。每帧数据包含双手42个关节的六维空间信息,涵盖三维坐标与欧拉角姿态,经归一化处理后按时间序列组织为Parquet格式,形成包含5个独立操作片段、总计16,861帧的连续动作记录。
特点
本数据集以高精度时空同步为显著特征,每个关节具备六自由度参数化描述,构成252维状态向量。数据遵循MediaPipe手部解剖结构标准,涵盖腕部至五指末梢的完整运动链,其多模态特性同时提供视频流与结构化姿态数据。通过划分训练集与测试集的标准化设计,确保了模型验证的可靠性,部分帧存在的未检测标记亦反映了真实场景的复杂性。
使用方法
研究者可通过LeRobot专用接口直接加载数据集,或借助Pandas解析Parquet文件获取时序状态向量。可视化工具支持生成交互式关节运动轨迹图谱,便于直观分析手部运动学特征。该数据集适用于模仿学习与行为克隆等算法开发,其标准化的数据布局与HuggingFace生态兼容,为机器人精细操作研究提供即用型基准。
背景与挑战
背景概述
在机器人操作与仿人交互研究领域,精准的手部运动追踪技术对于实现精细任务执行至关重要。hand_tracking_lerobot_dataset由专业团队于2024年构建,采用MediaPipe框架从第一视角视频中提取高精度手部关节数据,旨在为Figure AI等企业的机器人系统提供训练基础。该数据集包含42个关节的六维坐标与姿态信息,通过标准化LeRobot格式推动模仿学习与动作生成算法的进步,显著提升了机器人手部操作的拟人化水平。
当前挑战
该数据集致力于解决机器人手部动作模仿中的时空一致性难题,需在复杂背景下实现多关节轨迹的精确重建。构建过程中面临手部遮挡导致的检测中断问题,部分帧因未识别而存在数据缺失;同时,高帧率视频与三维姿态的同步处理对计算资源提出严格要求,且不同光照条件下关节角度的稳定性维持亦是关键挑战。
常用场景
经典使用场景
在机器人智能操控领域,该数据集以其专业级手部追踪数据为核心,为仿人机器人系统提供了精准的动作模仿基础。通过整合42个关节的六维坐标与姿态角信息,研究人员能够构建高保真的手部运动模型,特别适用于需要精细操作的任务场景,如物体抓取、手势识别等。这种结构化数据不仅支持端到端的模仿学习框架,还为多模态感知与控制策略的协同优化奠定了坚实基础。
实际应用
在工业自动化与智能服务领域,该数据集的实际价值体现在机器人精细操作系统的开发中。基于其标准化数据格式,企业可快速构建适用于装配线、医疗辅助等场景的智能操控模块。例如在Figure AI等公司的产品研发中,该数据集被用于训练机器人执行工具使用、精密装配等任务,其多模态数据流还能与视觉系统结合,实现实时动作校正与场景自适应,大幅提升机器人应对非结构化环境的能力。
衍生相关工作
该数据集催生了多项机器人学习领域的创新研究。基于其统一的数据规范,研究者开发了面向连续动作空间的模仿学习架构,如结合图神经网络的手部运动预测模型。在LeRobot生态中衍生了多智能体协作框架,通过跨模态对齐技术实现了视觉-动作联合建模。相关成果进一步推动了物理智能(Physical Intelligence)系统的演进,为具身智能在动态环境中的行为生成提供了可复现的基准体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作