pusht

Name: pusht
Creator: abbyoneill
Published: 2025-02-25 06:40:38
License: 暂无描述

Hugging Face2025-02-25 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/abbyoneill/pusht

下载链接

金山云加速下载

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人数据集。数据集包含25个episodes，5000帧，1个任务和50个视频。数据以parquet文件格式存储，包括动作、观察状态、时间戳等特征。视频数据来自两个Logitech摄像头，分辨率为720x1280，帧率为10fps。数据集采用Apache 2.0许可证。

This robotic dataset was created using LeRobot. It contains 25 episodes, 5000 frames, 1 task, and 50 videos. The data is stored in Parquet file format, including features such as actions, observation states, and timestamps. The video data is captured by two Logitech cameras, with a resolution of 720×1280 and a frame rate of 10 fps. The dataset is licensed under the Apache 2.0 license.

提供机构：

abbyoneill

创建时间：

2025-02-25

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学 (Robotics)
标签: LeRobot
创建工具: LeRobot

数据集结构

配置名称: default
数据文件格式: Parquet (data/*/*.parquet)
元数据文件: meta/info.json

元数据详情

代码库版本: v2.0
机器人类型: koch
总集数: 25
总帧数: 5000
总任务数: 1
总视频数: 50
总块数: 1
块大小: 1000
帧率 (FPS): 10

数据分割

训练集: 0:25

数据路径

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作 (Action)

数据类型: float32
形状: [6]
名称:
- main_shoulder_pan
- main_shoulder_lift
- main_elbow_flex
- main_wrist_flex
- main_wrist_roll
- main_gripper

观测状态 (Observation.State)

数据类型: float32
形状: [6]
名称:
- main_shoulder_pan
- main_shoulder_lift
- main_elbow_flex
- main_wrist_flex
- main_wrist_roll
- main_gripper

观测图像 (Observation.Images)

Logitech1

数据类型: video
形状: [720, 1280, 3]
名称:
- height
- width
- channels
视频信息:
- fps: 10.0
- height: 720
- width: 1280
- channels: 3
- codec: av1
- pix_fmt: yuv420p
- is_depth_map: false
- has_audio: false

Logitech2

数据类型: video
形状: [720, 1280, 3]
名称:
- height
- width
- channels
视频信息:
- fps: 10.0
- height: 720
- width: 1280
- channels: 3
- codec: av1
- pix_fmt: yuv420p
- is_depth_map: false
- has_audio: false

其他特征

timestamp: float32, shape [1]
frame_index: int64, shape [1]
episode_index: int64, shape [1]
index: int64, shape [1]
task_index: int64, shape [1]

引用信息

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建方式直接影响模型学习的效果。Pusht数据集依托LeRobot框架，通过Koch型机器人采集了25个完整操作片段，总计5000帧数据。每个片段以10帧每秒的频率记录，数据以Parquet格式存储，包含机器人的六维关节状态、动作指令以及双摄像头采集的720p视觉信息，确保了数据的高效性与结构化。

特点

该数据集的特点体现在其多维度的观测与动作表示上。除了六自由度的关节状态与动作空间，还提供了两个Logitech摄像头采集的同步视觉流，视频编码采用AV1格式以优化存储。数据集结构清晰，通过帧索引、时间戳和片段索引实现精确的数据对齐，适用于需要结合状态与视觉信息的机器人策略学习任务。

使用方法

使用Pusht数据集时，研究者可通过LeRobot工具链直接加载Parquet文件，访问机器人的状态、动作及视觉观测。数据已按训练集划分，支持从视频流或特征向量中提取时序信息，适用于模仿学习、强化学习等算法的训练与验证，为机器人操作任务提供了丰富的多模态输入。

背景与挑战

背景概述

在机器人学习领域，高质量的真实世界交互数据对于推动模仿学习与强化学习算法的实际应用至关重要。PushT数据集由HuggingFace的LeRobot项目团队创建，旨在为机器人操作任务提供一套包含多模态观测与动作记录的基准数据。该数据集聚焦于机械臂的推动操作任务，通过集成关节状态、视觉图像及精确的时间戳信息，为研究者构建端到端的策略学习模型奠定了数据基础。其采用Apache 2.0开源协议，体现了开放科学的精神，促进了机器人社区在真实环境技能迁移方面的协作探索。

当前挑战

PushT数据集致力于解决机器人操作中复杂动态环境的技能泛化问题，其核心挑战在于如何从有限的演示样本中学习能够适应物体属性、初始位置及桌面摩擦等多变条件的鲁棒推动策略。在构建过程中，数据采集面临诸多困难：需确保多视角视觉流与高精度关节动作的严格同步，处理大规模视频数据的高效压缩与存储，以及维持长达5000帧的连续轨迹中状态-动作对的时序一致性。此外，数据规模的有限性——仅包含25条轨迹——也对学习模型的样本效率与泛化能力提出了严峻考验。

常用场景

经典使用场景

在机器人学习领域，pusht数据集为模仿学习与强化学习算法的训练与评估提供了关键支持。该数据集记录了Koch机器人执行推送任务时的多模态数据，包括关节状态、动作指令及双视角视觉信息，使得研究者能够基于真实世界交互轨迹构建端到端的控制策略。其结构化存储的时序序列特别适合用于训练序列预测模型，以学习从视觉观察到机械臂动作的映射关系，为机器人技能获取奠定了数据基础。

实际应用

在实际工业与服务场景中，pusht数据集能够指导开发自主完成物品推送、摆放等精细操作的机器人系统。基于此类数据训练的模型可部署于物流分拣、生产线装配或家庭服务机器人，实现从视觉感知到动作执行的自动化流程。其提供的双摄像头视角模拟了多传感器融合的典型配置，有助于提升系统在复杂光照与遮挡环境下的鲁棒性，为实际部署提供可靠性验证。

衍生相关工作

围绕pusht数据集，已衍生出一系列专注于机器人操作技能学习的经典研究工作。这些工作通常利用其多模态序列数据，开发基于Transformer或扩散模型的轨迹预测架构，以生成连续、平滑的机械臂控制指令。同时，该数据集也常被用作基准测试平台，用于比较不同离线强化学习算法在稀疏奖励任务上的性能，进而推动机器人策略学习领域在样本利用效率与泛化能力方面的持续进步。

以上内容由遇见数据集搜集并总结生成