five

GR1-Tabletop-Merged-100x24

收藏
Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/Joocjun/GR1-Tabletop-Merged-100x24
下载链接
链接失效反馈
官方服务:
资源简介:
GR1 Tabletop Merged LeRobot Datasets 是从 NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim 数据集中合并和子采样的 GR1 桌面操作数据集,采用 LeRobot v2.0 格式。数据集包含三个变体:1000x24、300x24 和 100x24,分别包含 24,000、7,200 和 2,400 个演示片段,总帧数分别为 6,020,058、1,803,236 和 602,846。数据集来源于 24 个任务文件夹,包括 6 个 PnP 任务和 18 个 PosttrainPnPNovel 任务。每个合并数据集通过随机子采样和合并处理生成,并重新索引了片段 ID 和任务 ID。数据集结构包括数据、视频和元数据文件夹,特征包括观察图像、状态、动作、时间戳、奖励、完成标志、任务索引、片段索引和人类粗粒度动作注释。数据集适用于机器人操作任务,特别是桌面物体转移和操作场景。
创建时间:
2026-03-18
原始信息汇总

GR1 Tabletop Merged LeRobot Datasets 数据集概述

数据集基本信息

  • 许可证:Apache 2.0
  • 任务类别:机器人学
  • 标签:LeRobot, GR00T, GR1, robocasa, simulation, manipulation
  • 数据规模:10K<n<100K

数据集描述

该数据集是来自 NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim 集合的 GR1 桌面操作数据集的合并和子采样版本,采用 LeRobot v2.0 格式。

数据集变体

变体 演示/任务 任务 总片段数 总帧数 近似大小
1000x24/ 1000 24个文件夹,186个唯一任务 24,000 6,020,058 ~40 GB
300x24/ 300 24个文件夹,186个唯一任务 7,200 1,803,236 ~12 GB
100x24/ 100 24个文件夹,185个唯一任务 2,400 602,846 ~4 GB

源数据集

原始逐任务数据集下载自:nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim

使用的24个源任务文件夹(每个包含1000个演示):

  • 6个 PnP 任务:Bottle→Cabinet, Can→Drawer, Cup→Drawer, Milk→Microwave, Potato→Microwave, Wine→Cabinet
  • 18个 PosttrainPnPNovel 任务:物体在不同表面间的各种转移任务(Cuttingboard→{Basket,Cardboardbox,Pan,Pot,Tieredbasket}, Placemat→{Basket,Bowl,Plate,Tieredshelf}, Plate→{Bowl,Cardboardbox,Pan,Plate}, Tray→{Cardboardbox,Plate,Pot,Tieredbasket,Tieredshelf})

处理流程

每个合并数据集的创建步骤:

  1. 子采样:从24个任务文件夹中每个随机采样N个片段(种子=42)
  2. 合并:将所有采样片段合并为单个数据集,包含:
    • 重新索引的片段ID(0至总数-1)
    • 跨所有源文件夹的全局重新索引的任务ID
    • 更新了 episode_indextask_indexindex 列的parquet文件
    • 合并的 meta/ 文件(info.jsonepisodes.jsonltasks.jsonlmodality.json

关于任务数量的说明

100x24 变体有185个唯一任务而非186个。这是因为某些任务文件夹包含多个任务变体(例如,PosttrainPnPNovelFromTrayToTieredbasket 文件夹包含10个不同的物体变体,如茄子、番茄等)。“茄子”变体仅在1000个源片段中的58个中出现,因此当仅随机采样100个片段时,没有选中任何茄子片段。这是随机子采样的预期行为。

数据集结构(LeRobot v2.0)

<variant>/ ├── data/ │ └── chunk-000/ │ ├── episode_000000.parquet │ ├── episode_000001.parquet │ └── ... ├── videos/ │ └── chunk-000/ │ └── observation.images.ego_view/ │ ├── episode_000000.mp4 │ ├── episode_000001.mp4 │ └── ... └── meta/ ├── info.json ├── episodes.jsonl ├── tasks.jsonl ├── modality.json ├── stats.json └── relative_stats.json

特征

特征 类型 形状
observation.images.ego_view 视频 (h264) [256, 256, 3] @ 20fps
observation.state float64 [44]
action float64 [44]
timestamp float64 [1]
next.reward float64 [1]
next.done bool [1]
task_index int64 [1]
episode_index int64 [1]
annotation.human.coarse_action int64 [1]

机器人:GR1ArmsAndWaistFourierHands(44自由度:手臂、手、腿、颈部、腰部)

搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,高质量仿真数据的整合与标准化对于模型训练至关重要。GR1-Tabletop-Merged-100x24数据集源自NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim原始集合,通过系统化处理流程构建而成。具体而言,从24个任务文件夹中随机抽取100个演示样本,并采用固定随机种子确保可复现性。随后,所有样本被合并为单一数据集,同时重新索引了任务与片段标识符,并更新了元数据文件以符合LeRobot v2.0格式规范。这一构建方式不仅保留了原始数据的多样性,还通过统一结构提升了数据集的易用性。
特点
该数据集在机器人桌面操作仿真中展现出显著特点。其涵盖24个任务文件夹,内含185种独特任务,涉及物体抓取、放置及表面间转移等多种操作场景。数据维度丰富,包含以20帧率录制的256x256分辨率自我视角视频、44维机器人状态与动作向量,以及任务索引和人工标注的粗略动作标签。机器人模型采用GR1ArmsAndWaistFourierHands构型,拥有44个自由度,覆盖手臂、手部、腿部、颈部及腰部运动。数据集规模适中,约含2400个片段与60万帧数据,总容量约4GB,平衡了数据广度与存储效率。
使用方法
为有效利用该数据集进行机器人学习研究,用户可通过Hugging Face Hub便捷下载。使用snapshot_download函数并指定相应变体路径即可获取数据,数据已按LeRobot v2.0格式组织,包含结构化元文件与分块存储的演示片段。研究人员可直接加载Parquet格式的片段文件及配套视频,利用提供的任务索引与状态动作对训练策略模型或进行行为克隆。数据集兼容主流机器人学习框架,其标准化结构便于集成到现有训练流程中,支持仿真环境下的操作技能学习与评估。
背景与挑战
背景概述
在机器人操作领域,模拟数据集对于推动具身智能的发展至关重要。GR1-Tabletop-Merged-100x24数据集由NVIDIA PhysicalAI-Robotics-GR00T-X-Embodiment-Sim项目衍生而来,其核心研究问题聚焦于桌面级物体抓取与放置任务的多样化泛化能力。该数据集通过整合24个任务文件夹中的186项独特任务,构建了一个包含2400条演示轨迹的大规模仿真资源,旨在为机器人操作策略的离线学习与模仿提供高质量数据支持。其创建基于GR1机器人平台,采用44自由度控制,涵盖了从简单物体转移到复杂场景交互的广泛操作序列,显著提升了机器人对未知物体与环境的适应性与鲁棒性。
当前挑战
该数据集所解决的领域问题在于机器人桌面操作中的多任务泛化与样本效率挑战。具体而言,如何从有限演示中学习可迁移的操作策略,以应对物体形状、材质及放置目标的多样性,构成了核心难点。在构建过程中,挑战主要体现在数据整合与采样上:原始任务文件夹包含不同对象变体,随机子采样可能导致某些稀有变体(如‘茄子’对象)在缩减版本中完全缺失,影响任务覆盖的完整性。此外,将异构的仿真演示统一至LeRobot v2.0格式,需重新索引任务与轨迹标识,确保数据结构的连贯性与一致性,这对大规模多任务数据集的标准化处理提出了较高要求。
常用场景
经典使用场景
在机器人操作领域,GR1-Tabletop-Merged-100x24数据集为桌面物体操控任务提供了丰富的演示数据。该数据集通过整合24个任务文件夹中的186个独特任务,涵盖了从基础拾放(PnP)到复杂物体转移(PosttrainPnPNovel)的多样化场景。研究者通常利用这些数据训练强化学习或模仿学习模型,以提升机器人在非结构化环境中的泛化能力,特别是在处理不同物体与表面交互时的适应性。
实际应用
在实际应用中,该数据集可直接服务于家庭服务机器人或工业自动化系统的开发。例如,基于数据训练的模型可应用于物流分拣、厨房辅助或仓储管理场景,实现物体精准抓取、放置及整理。仿真环境中的验证能够加速算法迭代,随后迁移至物理机器人,提升系统在真实世界中的鲁棒性与效率,为智能化操作解决方案的落地提供关键支持。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在机器人模仿学习与强化学习框架的优化。例如,基于LeRobot格式的数据集被广泛用于训练多任务策略网络,支持GR00T等通用机器人模型的开发。同时,研究者利用其子采样变体进行数据效率分析,探索了任务组合、表示学习等方法,进一步推动了跨模态操作与仿真到真实迁移技术的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作