pusht_physical_15fps

Hugging Face2026-01-13 更新2026-01-14 收录

下载链接：

https://huggingface.co/datasets/StefanWagnerWandelbots/pusht_physical_15fps

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，包含机器人操作相关的数据。具体包括6个关节的位置数据、来自三个不同视角（法兰、左侧、右侧）的视频观察数据、时间戳、帧索引和任务索引等信息。数据集共包含184个episode，119810帧，数据以parquet格式存储，并配有相应的视频文件。视频分辨率为480x640，帧率为15fps。

创建时间：

2026-01-12

原始信息汇总

数据集概述

基本信息

数据集名称: pusht_physical_15fps
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总情节数: 184
总帧数: 119,810
总任务数: 1
帧率: 15 FPS
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
数据格式: Parquet
视频格式: MP4 (AV1 编码)
代码库版本: v3.0
机器人类型: nova
数据划分: 训练集 (0:184)

数据特征

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: joint_1.pos, joint_2.pos, joint_3.pos, joint_4.pos, joint_5.pos, joint_6.pos
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: joint_1.pos, joint_2.pos, joint_3.pos, joint_4.pos, joint_5.pos, joint_6.pos
观测图像 - 法兰 (observation.images.flange):
- 数据类型: 视频
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480 像素
  - 宽度: 640 像素
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 15 FPS
  - 通道数: 3
  - 包含音频: false
观测图像 - 左侧 (observation.images.left):
- 数据类型: 视频
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480 像素
  - 宽度: 640 像素
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 15 FPS
  - 通道数: 3
  - 包含音频: false
观测图像 - 右侧 (observation.images.right):
- 数据类型: 视频
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480 像素
  - 宽度: 640 像素
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 15 FPS
  - 通道数: 3
  - 包含音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
- 名称: null
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
- 名称: null
情节索引 (episode_index):
- 数据类型: int64
- 形状: [1]
- 名称: null
索引 (index):
- 数据类型: int64
- 形状: [1]
- 名称: null
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]
- 名称: null

文件路径

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX 引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于真实物理环境的交互记录。pusht_physical_15fps数据集通过LeRobot平台，在Nova机器人上采集了184个完整操作片段，总计近12万帧数据。这些数据以每秒15帧的频率同步记录，涵盖了六轴关节的位置状态、多个视角的视觉图像以及时间戳等元信息。数据被组织成以Parquet格式存储的块状文件，每块包含1000帧，确保了高效的数据管理与访问。

特点

该数据集的一个显著特点是其多模态数据的深度融合，不仅提供了机器人六维关节的位置作为动作与状态观测，还集成了来自法兰、左、右三个视角的同步视频流。所有视觉数据均以480x640分辨率、AV1编码的彩色视频形式保存，帧率稳定在15fps，保证了时序一致性。数据集结构清晰，通过索引字段可精确追溯每帧数据所属的任务、片段及时间点，为机器人模仿学习与策略研究提供了丰富的时空上下文。

使用方法

研究人员可利用该数据集进行机器人模仿学习、行为克隆或强化学习算法的训练与验证。数据以Parquet文件格式存储，支持通过帧索引、片段索引等字段进行灵活的数据加载与切片。用户可结合LeRobot工具链，直接读取动作、状态观测及多视角视频序列，构建端到端的训练流程。由于数据集仅包含训练划分，适用于模型开发阶段的离线训练，后续需结合具体任务进行泛化性能评估。

背景与挑战

背景概述

在机器人学习领域，高质量的真实世界交互数据对于推动模仿学习与强化学习算法的实际应用至关重要。pusht_physical_15fps数据集由LeRobot项目团队创建，旨在为机器人操作任务提供丰富的物理交互轨迹记录。该数据集聚焦于六自由度机械臂的操控问题，通过采集多视角视觉观测与关节状态数据，为研究者构建从感知到动作的端到端策略模型提供了坚实基础。其结构化设计不仅支持大规模离线训练，也促进了机器人行为克隆与动态环境适应等核心研究方向的深入探索。

当前挑战

该数据集致力于解决机器人操作任务中复杂动态环境的感知与决策挑战，其核心在于如何从多模态观测中学习稳健且泛化性强的控制策略。构建过程中的挑战主要体现在真实物理数据采集的复杂性上，包括多传感器同步校准、高维度连续动作空间的精确记录，以及长时序轨迹数据的存储与高效管理。此外，确保数据在多变光照与物体位姿下的多样性，同时维持视频流与状态信息间的一致性，亦是数据集构建中需克服的关键技术难题。

常用场景

经典使用场景

在机器人学习领域，pusht_physical_15fps数据集以其高频率的传感器数据流，为机器人控制算法的训练与验证提供了关键支持。该数据集记录了Nova机器人执行任务时的关节位置、多视角图像及时间戳信息，尤其适用于模仿学习与强化学习场景。研究者能够利用这些同步的观测与动作序列，构建端到端的策略模型，模拟机器人在物理环境中的动态交互过程，从而优化其自主决策能力。

实际应用

在实际应用中，pusht_physical_15fps数据集可直接用于工业自动化与服务机器人的技能学习。例如，基于该数据训练的模型能够指导机器人完成精确的抓取、装配或导航任务，提升其在复杂环境中的适应性与鲁棒性。此外，数据集支持仿真到实物的迁移研究，有助于开发更安全、高效的机器人控制系统，推动智能制造与家庭辅助等领域的落地。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在机器人行为克隆与视觉运动策略学习方面。例如，利用其多视角视频序列进行三维场景理解，或结合关节动作数据开发分层控制架构。这些工作不仅拓展了数据集的利用维度，还催生了新的算法框架，如基于Transformer的序列建模方法，进一步推动了机器人学习社区的创新与协作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集