five

lerobot/pusht_image

收藏
Hugging Face2025-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/lerobot/pusht_image
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,包括图像观察、状态序列、动作序列、episode索引、帧索引、时间戳、下一个奖励、下一个完成状态、下一个成功状态和索引。数据集分为训练集,包含25650个样本,总大小为31944809.75字节。

该数据集包含多个特征,包括图像观察、状态序列、动作序列、episode索引、帧索引、时间戳、下一个奖励、下一个完成状态、下一个成功状态和索引。数据集分为训练集,包含25650个样本,总大小为31944809.75字节。
提供机构:
lerobot
原始信息汇总

数据集概述

数据集特征

  • observation.image: 图像数据类型
  • observation.state: 序列数据,类型为float32,长度为2
  • action: 序列数据,类型为float32,长度为2
  • episode_index: 数据类型为int64
  • frame_index: 数据类型为int64
  • timestamp: 数据类型为float32
  • next.reward: 数据类型为float32
  • next.done: 数据类型为bool
  • next.success: 数据类型为bool
  • index: 数据类型为int64

数据集划分

  • train: 训练集,包含25650个样本,总大小为31944809.75字节

数据集大小

  • 下载大小: 31984994字节
  • 数据集大小: 31944809.75字节

配置

  • config_name: default
  • data_files:
    • split: train
    • path: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学领域,视觉运动策略学习常需大规模交互数据支撑。该数据集依托LeRobot平台构建,通过真实机器人交互采集了206个完整回合,总计25650帧数据。数据以分块形式存储于Parquet文件中,每块包含1000帧,采样频率为10赫兹,确保了时序连贯性与高效存取。原始数据经结构化处理,涵盖观测图像、状态向量及动作指令等多模态信息,为策略学习提供了坚实的实验基础。
特点
该数据集以紧凑的96x96像素RGB图像作为视觉观测,辅以二维电机状态向量,形成了高维感知与低维控制的有机结合。其动作空间同样为二维连续值,与观测状态维度对齐,便于模型端到端学习。数据中嵌入了回合索引、时间戳及后续奖励、完成标志等元信息,支持强化学习与模仿学习等多种范式。所有特征均以标准化格式封装,确保了数据的一致性与易用性。
使用方法
研究者可通过HuggingFace数据集库直接加载该数据集,利用其预定义的数据分割进行训练与验证。数据以字典形式组织,键值对应图像、状态、动作等字段,便于批量读取与预处理。该数据集适用于训练视觉运动策略模型,如扩散策略等先进方法,可通过图像观测预测连续动作输出。使用时需注意数据以回合为单位组织,帧间具有时序依赖性,适合序列建模任务。
背景与挑战
背景概述
在机器人学领域,视觉运动策略学习旨在使机器人能够通过视觉感知来执行复杂的操作任务。lerobot/pusht_image数据集由哥伦比亚大学等机构的研究团队于2024年创建,其核心研究问题聚焦于如何利用扩散模型提升机器人策略学习的泛化能力与鲁棒性。该数据集基于《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》论文构建,通过提供包含图像观测、状态信息及动作序列的交互数据,为视觉运动策略的端到端学习提供了关键支撑,推动了机器人模仿学习与强化学习方法的融合创新。
当前挑战
该数据集致力于解决机器人视觉运动策略学习中的核心挑战,即如何从高维视觉输入中稳定地生成连续且精确的动作序列。具体而言,挑战体现在模型需处理图像观测的噪声与视角变化,并确保动作输出的平滑性与任务成功率。在构建过程中,数据采集面临机器人硬件控制的一致性难题,以及多模态数据(如图像与电机状态)的精确同步与对齐问题。此外,数据规模有限且任务单一,可能制约策略在多样化场景下的泛化性能,对后续算法的鲁棒性评估构成潜在限制。
常用场景
经典使用场景
在机器人视觉运动控制领域,lerobot/pusht_image数据集以其丰富的图像观测与动作对序列,为模仿学习与强化学习算法提供了标准化的评估平台。该数据集通过记录机械臂执行推动任务时的视觉输入与对应电机控制信号,使得研究者能够训练端到端的视觉运动策略模型,验证模型在复杂物理环境中的泛化能力与鲁棒性。
解决学术问题
该数据集有效应对了机器人学中视觉运动策略学习的核心挑战,即如何从高维视觉输入中提取有效特征并生成精确的低维动作序列。它为解决样本效率低下、动作空间连续化建模以及跨场景迁移等经典学术问题提供了实证基础,推动了基于扩散模型等生成式方法在机器人控制中的应用,显著提升了策略学习的稳定性和可重复性。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于扩散模型的视觉运动策略学习框架,如Diffusion Policy系列研究。这些工作创新性地将生成式扩散过程引入机器人动作序列预测,实现了更平滑、更可靠的动作生成。此外,该数据集也促进了多模态融合、离线强化学习以及跨任务迁移等方向的研究,为机器人学习社区提供了重要的基准与灵感源泉。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作