pusht_gello_15fps

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/StefanWagnerWandelbots/pusht_gello_15fps

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由LeRobot创建的机器人技术数据集，包含1个任务场景的315帧数据。数据集主要记录了一个名为'nova'的机器人操作数据，包括6个关节的位置动作数据、机器人状态观测数据，以及来自三个不同视角（flange、left、right）的240x320分辨率视频图像。数据以parquet格式存储，视频采用av1编码，帧率为15fps。数据集总大小约300MB（数据文件100MB，视频文件200MB），适用于机器人控制与视觉相关研究。

创建时间：

2026-01-19

原始信息汇总

数据集概述

基本信息

数据集名称: pusht_gello_15fps
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总情节数: 1
总帧数: 929
总任务数: 1
数据块大小: 1000
帧率: 15 fps
数据文件大小: 100 MB
视频文件大小: 200 MB
机器人类型: nova
代码库版本: v3.0
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分: 训练集 (train) 包含所有数据 (0:1)

数据特征

动作

数据类型: float32
形状: [6]
名称: joint_1.pos, joint_2.pos, joint_3.pos, joint_4.pos, joint_5.pos, joint_6.pos

观测状态

数据类型: float32
形状: [6]
名称: joint_1.pos, joint_2.pos, joint_3.pos, joint_4.pos, joint_5.pos, joint_6.pos

观测图像 (法兰摄像头)

数据类型: 视频
形状: [240, 320, 3]
名称: height, width, channels
视频信息:
- 高度: 240 像素
- 宽度: 320 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 15 fps
- 通道数: 3
- 包含音频: 否

观测图像 (左摄像头)

数据类型: 视频
形状: [240, 320, 3]
名称: height, width, channels
视频信息:
- 高度: 240 像素
- 宽度: 320 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 15 fps
- 通道数: 3
- 包含音频: 否

观测图像 (右摄像头)

数据类型: 视频
形状: [240, 320, 3]
名称: height, width, channels
视频信息:
- 高度: 240 像素
- 宽度: 320 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 15 fps
- 通道数: 3
- 包含音频: 否

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX 引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于算法训练至关重要。pusht_gello_15fps数据集依托LeRobot平台构建，通过Nova型机器人采集了单次任务执行的连续操作序列。数据以15帧每秒的速率记录，包含929个时间帧，整体被组织为Parquet格式文件，并辅以MP4格式的视频流，确保了时序动作与视觉观测的同步对齐。

特点

该数据集的特点体现在其多模态融合与精细结构化表征上。它不仅提供了六自由度关节的位置作为动作与状态观测，还整合了法兰、左、右三个视角的RGB视频流，形成了丰富的感知输入。数据以分块形式存储，每块包含1000帧，便于高效加载与处理，同时所有特征均具备明确的形状、数据类型及元信息描述，为机器人策略学习提供了标准化且信息完备的基准。

使用方法

使用该数据集时，研究人员可通过LeRobot框架或兼容的数据加载工具直接读取Parquet文件，访问关节状态、动作指令及多视角图像序列。由于数据集仅包含训练划分，适用于模仿学习、行为克隆或视觉运动策略等任务的模型训练。视频数据以AV1编码存储，需相应解码支持，而清晰的帧索引与时间戳则为序列建模与时间对齐提供了便利。

背景与挑战

背景概述

在机器人学领域，模仿学习作为实现机器人自主操作的关键技术，依赖于高质量、多模态的数据集进行模型训练。pusht_gello_15fps数据集由LeRobot项目团队创建，旨在为机器人操作任务提供结构化的交互数据。该数据集采集自Nova型机器人，以15帧每秒的速率记录机械臂关节状态、多视角视觉信息及时间戳，为研究机器人动作预测、视觉伺服控制等核心问题提供了实验基础。尽管其具体创建时间与论文信息尚未公开，但作为开源社区推动机器人学习标准化的重要资源，该数据集促进了算法在真实物理环境中的验证与迭代。

当前挑战

该数据集致力于解决机器人模仿学习中的动作生成与视觉感知融合问题，其挑战在于如何从高维、异构的传感器数据中提取有效特征，以实现精确的动作指令映射。构建过程中的挑战涉及多模态数据的同步采集与对齐，需确保关节位置数据与多摄像头视频流在时间上严格一致。此外，数据规模有限，仅包含单个任务和较少帧数，可能制约模型泛化能力的提升。数据标注与任务定义的标准化也是构建中的难点，需要平衡数据丰富性与存储效率，同时保持视频编码格式的兼容性。

常用场景

经典使用场景

在机器人操作领域，pusht_gello_15fps数据集以其多视角视觉观测与关节状态同步记录的特性，为模仿学习与行为克隆研究提供了经典范例。该数据集通过记录Nova机器人执行特定任务时的连续动作序列，包括六个关节的位置信息以及来自法兰、左、右三个摄像头的实时视频流，使得研究者能够基于真实世界交互数据训练端到端的控制策略。这种结构化的时序数据尤其适用于开发能够从视觉输入直接映射到动作输出的神经网络模型，为机器人自主操作技能的获取奠定了数据基础。

解决学术问题

该数据集有效应对了机器人学中从高维感知到低维动作映射的核心挑战，解决了传统方法在复杂动态环境中泛化能力不足的问题。通过提供同步的多模态观测数据，它支持研究者探索视觉伺服控制、状态估计与策略学习的一体化框架，促进了基于深度学习的机器人控制算法的实证验证。其意义在于降低了真实机器人实验的数据采集门槛，加速了从仿真到实际部署的过渡，对推动具身智能与自适应操作系统的研究产生了深远影响。

衍生相关工作

围绕该数据集，衍生出了一系列专注于机器人视觉运动控制的经典研究工作。这些工作通常利用其多视角视频与关节状态数据，开发基于卷积神经网络与循环神经网络的混合架构，以提升策略的时空建模能力。部分研究进一步探索了数据增强、跨模态融合以及元学习技术，旨在从有限演示中泛化出多样化的操作技能，推动了模仿学习、强化学习与计算机视觉交叉领域的算法创新与性能突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集