five

GR1-Tabletop-Merged-1000x24

收藏
Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/Joocjun/GR1-Tabletop-Merged-1000x24
下载链接
链接失效反馈
官方服务:
资源简介:
GR1 Tabletop Merged LeRobot 数据集是 NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim 集合中 GR1 桌面操作数据集的合并和子采样版本,采用 LeRobot v2.0 格式。数据集包含多个变体(1000x24、300x24、100x24),每个变体在任务演示数量、总任务数、总片段数、总帧数和近似大小上有所不同。数据集来源于 24 个任务文件夹,包括 6 个 PnP 任务和 18 个 PosttrainPnPNovel 任务,涉及物体在不同表面之间的转移操作。数据集经过子采样和合并处理,重新索引了片段 ID 和任务 ID,并更新了相关文件。数据集结构包括数据、视频和元数据文件夹,特征包括视频观察、状态、动作、奖励等。适用于机器人操作任务的研究和应用。数据集遵循 Apache 2.0 许可证。

The GR1 Tabletop Merged LeRobot Dataset is a merged and subsampled version of the GR1 tabletop manipulation dataset within the NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim collection, formatted per LeRobot v2.0 specifications. This dataset includes three variants: 1000x24, 300x24, and 100x24, each differing in the number of task demonstrations, total number of tasks, total segments, total frames, and approximate file size. Sourced from 24 task folders encompassing 6 PnP tasks and 18 PosttrainPnPNovel tasks, the dataset covers object transfer operations between different surfaces. It has undergone subsampling and merging processing, with reindexed segment IDs and task IDs, as well as updated associated files. The dataset structure comprises data, video, and metadata folders, with features including visual observations, states, actions, rewards, and more. It is applicable for research and applications related to robotic manipulation tasks, and is licensed under Apache 2.0.
创建时间:
2026-03-18
原始信息汇总

GR1 Tabletop Merged LeRobot Datasets 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 任务类别: 机器人学
  • 标签: LeRobot, GR00T, GR1, robocasa, simulation, manipulation
  • 数据规模: 10K < n < 100K

数据集描述

该数据集是来自 NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim 集合的 GR1 桌面操作数据集的合并和子采样版本,采用 LeRobot v2.0 格式。

数据集变体

变体 演示/任务 任务 总情节数 总帧数 近似大小
1000x24/ 1000 24个文件夹,186个独特任务 24,000 6,020,058 ~40 GB
300x24/ 300 24个文件夹,186个独特任务 7,200 1,803,236 ~12 GB
100x24/ 100 24个文件夹,185个独特任务 2,400 602,846 ~4 GB

源数据集

原始数据集下载自: nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim

使用的24个源任务文件夹(每个包含1000个演示):

  • 6个 PnP 任务: Bottle→Cabinet, Can→Drawer, Cup→Drawer, Milk→Microwave, Potato→Microwave, Wine→Cabinet
  • 18个 PosttrainPnPNovel 任务: 物体在不同表面间的转移任务(例如 Cuttingboard→{Basket,Cardboardbox,Pan,Pot,Tieredbasket}, Placemat→{Basket,Bowl,Plate,Tieredshelf}, Plate→{Bowl,Cardboardbox,Pan,Plate}, Tray→{Cardboardbox,Plate,Pot,Tieredbasket,Tieredshelf})

处理流程

每个合并数据集通过以下步骤创建:

  1. 子采样: 从24个任务文件夹中随机采样N个情节(种子=42)
  2. 合并: 将所有采样情节合并为单个数据集,包含:
    • 重新索引的情节ID
    • 跨所有源文件夹的全局任务ID
    • 更新了 episode_indextask_indexindex 列的parquet文件
    • 整合的 meta/ 文件

数据集结构 (LeRobot v2.0)

<variant>/ ├── data/ │ └── chunk-000/ │ ├── episode_000000.parquet │ ├── episode_000001.parquet │ └── ... ├── videos/ │ └── chunk-000/ │ └── observation.images.ego_view/ │ ├── episode_000000.mp4 │ ├── episode_000001.mp4 │ └── ... └── meta/ ├── info.json ├── episodes.jsonl ├── tasks.jsonl ├── modality.json ├── stats.json └── relative_stats.json

数据特征

特征 类型 形状
observation.images.ego_view 视频 (h264) [256, 256, 3] @ 20fps
observation.state float64 [44]
action float64 [44]
timestamp float64 [1]
next.reward float64 [1]
next.done bool [1]
task_index int64 [1]
episode_index int64 [1]
annotation.human.coarse_action int64 [1]

机器人: GR1ArmsAndWaistFourierHands (44自由度: 手臂、手、腿、颈部、腰部)

使用方式

python from huggingface_hub import snapshot_download

snapshot_download( repo_id="Joocjun/GR1-Tabletop-Merged-LeRobot", repo_type="dataset", allow_patterns="100x24/", # 或 "300x24/" 或 "1000x24/**" local_dir="./gr1_merged" )

搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作仿真领域,构建高质量数据集是推动算法进步的关键。GR1-Tabletop-Merged-1000x24数据集源于NVIDIA的GR00T-X-Embodiment-Sim原始集合,通过系统化处理流程生成。具体而言,从24个独立任务文件夹中,依据固定随机种子均匀抽取各1000条演示轨迹,随后进行全局整合与重索引。该过程不仅重新编排了episode与task的标识符,还统一了元数据文件,确保了数据在LeRobot v2.0格式下的结构一致性与逻辑完整性。
特点
该数据集在机器人桌面操作仿真中展现出鲜明的多维特性。其核心在于覆盖了24类任务文件夹下的186种独特操作场景,包括基础的拾放任务与多样化的物体转移任务,提供了丰富的任务泛化基础。数据模态上,每一条轨迹均包含以20帧率录制的256x256 RGB视频、44维的机器人状态与动作向量,以及精细的任务与回合索引。特别值得注意的是,数据集采用了GR1ArmsAndWaistFourierHands机器人的44自由度模型,模拟了手臂、手部、腿部、颈部与腰部的协同运动,为复杂操作策略的研究提供了高保真仿真环境。
使用方法
为便于研究社区高效利用,该数据集已适配主流的LeRobot v2.0数据框架。使用者可通过Hugging Face Hub的snapshot_download接口,指定‘1000x24’、‘300x24’或‘100x24’等变体模式进行定向下载。数据以分块Parquet文件与MP4视频格式组织,并辅以完整的元数据描述文件。加载后,研究者可直接对接LeRobot工具链进行轨迹回放、特征提取或离线强化学习训练,从而专注于算法开发与评估,无需担忧底层数据解析与对齐的复杂性。
背景与挑战
背景概述
在机器人操作领域,模拟数据集对于推动具身智能的发展至关重要。GR1-Tabletop-Merged-1000x24数据集由NVIDIA等机构于2024年前后构建,作为GR00T-X-Embodiment-Sim项目的一部分,旨在解决桌面级物体操作任务中的多样化泛化问题。该数据集聚焦于拾放(Pick-and-Place)及其变体任务,通过整合24个任务文件夹中的186个独特任务,提供了大规模、多模态的演示数据,为机器人学习算法的训练与评估奠定了坚实基础,显著促进了仿真到现实迁移的研究进展。
当前挑战
该数据集致力于应对机器人操作中复杂场景下的泛化与适应性挑战,其核心问题在于如何使智能体在多变物体、多样容器及动态环境中实现鲁棒的抓取与放置。在构建过程中,挑战主要体现在数据整合与采样上:原始任务文件夹包含多个物体变体,随机子采样可能导致某些稀有变体(如“茄子”)在少量演示中完全缺失,影响任务覆盖的完整性;同时,将不同来源的演示统一为LeRobot v2.0格式需重新索引任务与片段ID,并确保多模态数据(如44维状态动作空间与256x256视频)的结构一致性,这对数据处理流程的精确性提出了较高要求。
常用场景
经典使用场景
在机器人操作领域,GR1-Tabletop-Merged-1000x24数据集为模仿学习与强化学习算法提供了丰富的桌面操作演示。该数据集通过整合24个任务文件夹中的186个独特任务,涵盖了从基础拾放(PnP)到复杂物体转移(PosttrainPnPNovel)的多样化场景,例如将瓶子放入橱柜或将杯子移至抽屉。研究者利用这些高维视觉与状态观测数据,训练机器人代理在模拟环境中执行精细的抓取和放置动作,从而推动机器人操作技能的泛化能力与适应性研究。
解决学术问题
该数据集致力于解决机器人操作中的关键学术挑战,包括跨任务知识迁移、少样本学习以及高维动作空间下的策略优化。通过提供大规模、多任务的演示数据,它支持研究者探索如何从异构任务中提取共享表征,进而提升模型在新环境中的泛化性能。此外,数据集的结构化设计有助于分析动作序列的时序依赖性,为端到端策略学习提供了基准,显著促进了机器人操作领域的算法创新与理论进展。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,主要集中在跨模态策略学习、多任务强化学习框架以及仿真到实物的转移技术。例如,研究者利用其大规模演示数据开发了基于Transformer的序列模型,以统一处理视觉观测与动作序列;同时,该数据集也催生了针对物体属性不变性表征的学习方法,增强了机器人在面对新颖物体时的操作鲁棒性。这些工作不仅拓展了机器人操作的理论边界,还为后续的通用机器人智能体(如GR00T项目)提供了重要的算法支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作