Mrwlker/pick_up_the_cup_2026-04-30

Name: Mrwlker/pick_up_the_cup_2026-04-30
Creator: Mrwlker
Published: 2026-04-30 17:45:57
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Mrwlker/pick_up_the_cup_2026-04-30

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与机器人技术相关，包含动作、观察（状态、头部摄像头图像、深度图、手部压力）以及时间戳和帧索引等元数据。数据集使用LeRobot创建，包含23个片段和6316帧，存储为parquet文件。机器人类型为unitree_g1_dex3，数据集采用Apache 2.0许可证。

This dataset is related to robotics and includes various features such as actions, observations (state, images from head camera, depth maps, hand pressure), and metadata like timestamps and frame indices. The dataset was created using LeRobot and contains 23 episodes with 6316 frames, stored in parquet files. The robot type is specified as unitree_g1_dex3, and the dataset is licensed under Apache 2.0.

提供机构：

Mrwlker

搜集汇总

数据集介绍

构建方式

在机器人操纵任务蓬勃发展的今天，高质量示教数据成为驱动学习算法进步的核心燃料。该数据集基于LeRobot框架构建，采集自Unitree G1 Dex3灵巧手人形机器人平台，聚焦于'拿起杯子'这一典型精细操作任务。数据集共收录23个完整演示回合，合计6316帧时序观测，数据以每30帧每秒的采样频率记录，并按照1000帧为单元进行分块存储。构建过程中，机器人通过遥操作或预设轨迹执行拾取动作，同步记录多维传感信息，最终将数据导出为Parquet与MP4格式文件，分别存放于data与videos目录下，确保大规模序列数据的高效存取与扩展性。

特点

数据集的突出特点在于其多模态、高维度的物理交互感知能力。每个样本时刻同时捕获机器人28维关节动作指令和28维关节状态观测，为行为克隆与强化学习提供精确的动力学线索。视觉方面，头部摄像头同时提供640×480分辨率的RGB图像与深度图，拓展了场景理解与抓取定位的维度和鲁棒性。尤为独特的是左右手各33维的压力分布信息，以完全覆盖灵巧手掌面与指段的精细阵列呈现，使得算法能够感知抓取过程中的接触力分布与滑动状态，为类人灵巧操作研究提供了稀有的、兼具视觉、运动学与触觉模态的标准化数据资源。

使用方法

该数据集遵循Apache-2.0许可协议，设计上深度集成Hugging Face LeRobot生态。使用时可首先加载meta/info.json获取数据结构总览，随后通过LeRobot的Dataset API读取分块Parquet文件，自动重建连续回合的时序流。当需要可视化数据或预训练模型时，可直接点击Hugging Face Spaces提供的交互式预览链接，快速浏览具体示教轨迹与视频回放。对于研究人员，建议自行编写数据加载器按'episode_index'切分训练与验证集，将28维动作与状态作为模仿学习的一对输入输出，并将深度图与压力分布融入多模态观测空间，以构建更鲁棒的灵巧操作策略。

背景与挑战

背景概述

在机器人学习领域，模仿学习（Imitation Learning）是使机器人能够从人类演示中习得复杂操作技能的关键范式。该数据集由Mrwlker等人于2026年4月30日创建，基于LeRobot框架构建，专注于解决双臂灵巧手在精细化操作任务中的挑战。核心研究问题围绕如何利用高维感知与运动数据驱动机器人掌握物体抓取与放置（如拾取杯子）这一基础但关键的技能。数据集采用Unitree G1 Dex3双足机器人平台，采集了23个演示回合、共计6316帧的高频（30 FPS）时序数据，包含关节角度、腕部与手指运动、头戴摄像头RGB与深度图像以及左右手33维压力分布等多模态观测信息。该数据集为研究人机交互中的柔顺控制、多指协调和力觉反馈提供了珍贵的基准资源，对推动灵巧操作从仿真向真实世界迁移具有重要影响。

当前挑战

该数据集所解决的领域问题核心在于灵巧手操作中动作高自由度（28维）与多模态感知融合的复杂映射。挑战之一是精确建模从视觉、深度与力觉输入到精细手指关节角度的因果推理，尤其面对杯子这类刚性、易碎物体时，需同时保证抓取稳定性与适应性。构建过程中遇到的挑战包括：如何在高维动作空间中高效采集高质量人类演示，避免回弹或滑落；多相机视差与深度图配准的精度控制；双手共66路压力传感器信号的同步与去噪；以及数据量有限（仅23个回合）下如何确保模型泛化至不同杯形与摆放位置。此外，基于LeRobot的parquet格式存储与视频编码需在保持时间序列完整性的同时压缩存储至约300MB，对数据预处理流水线提出了系统性要求。

常用场景

经典使用场景

在机器人学习与灵巧操作领域，该数据集的核心应用场景聚焦于双臂协同抓取与精细操作任务。通过记录Unitree G1 Dex3机器人执行‘拿起杯子’这一典型日常任务的全过程，数据集包含了高精度关节角度序列、双目视觉图像、深度图以及多通道指尖压力传感数据。研究者可利用这些多模态信息，训练端到端的模仿学习模型，使机器人学会从视觉感知到运动执行的映射关系，尤其适用于研究双臂灵巧手在非结构化环境中的抓取策略与力控交互机制。

衍生相关工作

该数据集衍生出的代表性工作包括基于扩散策略的多模态融合模仿学习方法，以及利用预训练视觉编码器进行小样本迁移学习的尝试。研究者已在该数据集上验证了Behavior Cloning、Action Chunking with Transformers（ACT）和Conditional Variational Autoencoder等经典算法的效果，并对比了其与基于强化学习的微调策略在操作成功率和力控精度上的差异。此外，有工作利用其深度与压力模态数据，开发了面向灵巧手的触觉-视觉联合表示学习框架，为后续双臂机器人数据集的构建和统一基准评测奠定了方法基础。

数据集最近研究