G1_Dex1_DiverseManip_SingleArm_128x128

Hugging Face2026-03-27 更新2026-03-28 收录

下载链接：

https://huggingface.co/datasets/unitreerobotics/G1_Dex1_DiverseManip_SingleArm_128x128

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，采用Apache-2.0许可证。数据集的主要任务是整理和清洁桌面上的物品。数据采集使用7自由度双臂G1机器人，配备夹持器末端执行器，操作时长为20至40秒，记录频率为30Hz。数据集包含机器人的当前状态、下一动作以及当前摄像头视图图像（分辨率为128x128）。摄像头位置为头戴式双目摄像头。数据集中每个条目的初始机器人姿态为第一个机器人状态，物体随机放置在机器人手臂运动范围和头戴摄像头视野内。数据集包含468个episodes，总计331555帧，数据文件大小为100MB，视频文件大小为500MB。数据集适用于视频生成模型、世界模型等应用。使用时需注意数据采集过程中的变化和空间位置描述的精确性。

This dataset was created by LeRobot and licensed under the Apache-2.0 license. Its core task is to tidy up and clean objects placed on a desktop. Data collection was conducted using a 7-degree-of-freedom dual-arm G1 robot equipped with a gripper end effector, with each operation lasting 20 to 40 seconds and a recording frequency of 30 Hz. The dataset includes the robot's current state, the next planned action, and current camera view images with a resolution of 128x128. The camera setup is a head-mounted binocular camera. For each entry in the dataset, the initial robot pose is the first recorded robot state, and objects are randomly placed within the motion range of the robot's arms and the field of view of the head-mounted camera. The dataset contains 468 episodes, totaling 331,555 frames, with a data file size of 100 MB and a video file size of 500 MB. This dataset is suitable for applications such as video generation models and world models. Attention should be paid to the variations during data collection and the accuracy of spatial position descriptions when using this dataset.

创建时间：

2026-03-18

原始信息汇总

数据集概述

基本信息

数据集名称： G1_Dex1_DiverseManip_SingleArm_128x128
主页： https://github.com/unitreerobotics
许可证： Apache-2.0
创建工具： LeRobot (https://github.com/huggingface/lerobot)
任务类别： 机器人学

任务与采集信息

任务目标： 整理和收拾桌子上的物品。
操作时长： 每次操作约20至40秒。
记录频率： 30 Hz。
机器人类型： 7自由度双臂G1机器人。
末端执行器： 夹爪。
是否为双臂操作： 是。
图像分辨率： 128x128。
相机位置： 头部安装（双目相机）。
数据内容：
- 机器人当前状态。
- 机器人下一个动作。
- 当前相机视图图像。
机器人初始姿态： 每个数据集条目中的第一个机器人状态。
物体放置： 随机放置在机器人手臂运动范围和机器人头部相机视野内。
相机视图： 遵循 AVP Teleoperation Documentation 中第5部分的指导。

数据集结构

代码库版本： v3.0
机器人类型： Unitree_G1_Dex1
总情节数： 468
总帧数： 331,555
总任务数： 1
数据块大小： 1000
数据文件大小： 100 MB
视频文件大小： 500 MB
帧率： 30 FPS
数据划分：
- 训练集：包含所有468个情节 (0:468)
数据文件路径模式： data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式： videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

observation.state
- 数据类型： float32
- 形状： [16]
- 名称： kLeftShoulderPitch, kLeftShoulderRoll, kLeftShoulderYaw, kLeftElbow, kLeftWristRoll, kLeftWristPitch, kLeftWristYaw, kRightShoulderPitch, kRightShoulderRoll, kRightShoulderYaw, kRightElbow, kRightWristRoll, kRightWristPitch, kRightWristYaw, kLeftGripper, kRightGripper
action
- 数据类型： float32
- 形状： [16]
- 名称： 与 observation.state 相同。
observation.images.cam_left_high
- 数据类型： video
- 形状： [128, 128, 3] (高度，宽度，通道)
- 视频信息： 高度128，宽度128，编解码器h264，像素格式yuv420p，非深度图，帧率30 FPS，通道数3，无音频。
observation.images.cam_right_high
- 数据类型： video
- 形状： [128, 128, 3] (高度，宽度，通道)
- 视频信息： 与 cam_left_high 相同。
timestamp
- 数据类型： float32
- 形状： [1]
frame_index
- 数据类型： int64
- 形状： [1]
episode_index
- 数据类型： int64
- 形状： [1]
index
- 数据类型： int64
- 形状： [1]
task_index
- 数据类型： int64
- 形状： [1]

重要说明

这是一个G1多样性数据集，可用于视频生成模型、世界模型等应用。
如需使用lerobotv2.1格式，请参考此文件进行转换：convert_v3_to_v2.py
由于无法精确描述空间位置，在按照 AVP Teleoperation Documentation 第5部分安装硬件后，请调整场景以尽可能匹配数据集的第一个帧。
数据收集并非在单次会话中完成，不同数据条目间存在差异。在模型训练时需考虑这些差异。

引用

bibtex @article{lee2018stochastic, title={Stochastic Adversarial Video Prediction}, author={Lee, Alex X. and Zhang, Richard and Ebert, Frederik and Abbeel, Pieter and Finn, Chelsea and Levine, Sergey}, journal={arXiv preprint arXiv:1804.01523}, year={2018}, url={https://arxiv.org/abs/1804.01523} }

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建质量直接影响模型学习的泛化能力。G1_Dex1_DiverseManip_SingleArm_128x128数据集依托LeRobot框架，通过Unitree G1七自由度双臂机器人执行桌面物品整理任务。数据采集过程中，物体被随机放置在机器人臂运动范围及头戴双目相机视野内，确保了场景的多样性。操作时长介于20至40秒，以30赫兹频率同步记录机器人状态、动作指令及128x128分辨率的视觉图像，最终以Parquet格式存储，共包含468个任务片段，总计超过33万帧数据。

特点

该数据集的核心特征体现在其多维异构数据的深度融合。不仅提供了16维的关节状态与动作向量，精确刻画了双机械臂的实时姿态，还同步收录了头戴式双相机的高帧率视觉流，为理解环境交互提供了丰富的感知上下文。数据结构的精心设计支持直接应用于视频生成模型与世界模型，其内在的任务单一性与操作过程的自然变异共同构成了一个平衡且富有挑战性的基准，有助于推动机器人模仿学习与预测模型的前沿研究。

使用方法

为有效利用该数据集，研究者可依据其结构化特征进行模型训练与验证。数据以分块Parquet文件组织，并附有对应的MP4格式视频，便于并行加载与处理。用户需注意数据采集并非单次完成，条目间存在固有差异，应在训练过程中予以考虑。对于希望采用LeRobot v2.1格式的研究者，官方提供了专用的转换脚本。在实际应用时，建议参照AVP远程操作文档的第五部分，校准硬件场景以匹配数据集的初始帧，从而确保仿真或迁移学习的准确性。

背景与挑战

背景概述

在机器人操作学习领域，构建能够泛化至多样化场景的视觉运动策略数据集，是推动具身智能发展的关键基石。G1_Dex1_DiverseManip_SingleArm_128x128数据集由Unitree Robotics等机构的研究人员创建，依托LeRobot平台，旨在为桌面物品整理任务提供高质量的双臂机器人操作示范数据。该数据集的核心研究问题聚焦于如何利用高维度的机器人状态与视觉观测序列，训练出能够理解并执行复杂灵巧操作的模型。其通过记录七自由度G1机器人在随机初始配置下的双臂协同动作，为视频预测模型、世界模型等前沿研究方向提供了宝贵的真实世界交互数据，对提升机器人在非结构化环境中的自主操作能力具有显著影响力。

当前挑战

该数据集致力于解决机器人灵巧操作中的视觉运动策略学习挑战，其核心在于如何从高维、连续的视觉与本体感知数据中，提炼出可泛化的操作技能。具体挑战体现在所解决的领域问题层面：模型需从有限的128x128分辨率视觉输入中，精准理解场景的三维几何与语义，并规划出长达20至40秒的、涉及多关节精密协调的双臂运动轨迹，这对算法的表征学习与长时程预测能力提出了极高要求。在构建过程中，挑战同样显著：为确保数据的多样性与真实性，物体被随机放置于机器人工作空间内，这引入了巨大的状态空间变化；同时，数据采集并非单次完成，不同记录会话间存在的环境与执行差异，要求后续模型训练必须具备处理此类分布偏移的鲁棒性。

常用场景

经典使用场景

在机器人操作学习领域，G1_Dex1_DiverseManip_SingleArm_128x128数据集为模拟桌面物品整理任务提供了丰富的视觉与动作轨迹数据。该数据集通过双臂G1机器人以30Hz频率记录头戴式双目相机视角下的128x128分辨率图像，同步捕捉机器人状态与动作指令，构建了从感知到执行的完整闭环。其经典应用场景在于训练端到端的视觉运动策略模型，使机器人能够基于实时视觉输入预测关节动作，实现精准的物品抓取与摆放，为复杂环境下的自主操作奠定数据基础。

实际应用

在实际工业与家庭服务场景中，该数据集能够推动智能机器人执行规律性整理任务，例如仓库货品分拣或居家桌面清理。其记录的随机物体放置与双臂协调操作数据，有助于开发适应动态环境的鲁棒控制系统。通过迁移学习，训练得到的模型可部署于物流分拣、医疗器材整理或实验室自动化流程，降低人工干预需求，提升任务执行的灵活性与安全性。

衍生相关工作

基于该数据集衍生的经典工作主要集中在视频预测与机器人策略学习领域。例如，借鉴Stochastic Adversarial Video Prediction框架，研究者可利用序列生成模型预测机器人操作轨迹；同时，结合世界模型方法，如Dreamer系列算法，能够从数据中学习环境动力学以规划动作。这些工作推动了视觉强化学习与模拟到真实迁移的技术进步，为后续大规模机器人操作数据集的构建与标准化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集