pusht

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/blankingout/pusht

下载链接

链接失效反馈

官方服务：

资源简介：

PushT数据集包含来自gym-pusht环境的视频和动作数据，旨在支持机器人控制与强化学习研究。数据集分为三个子集：'smooth/'包含约38,900个采用随机平滑运动（Ornstein-Uhlenbeck过程）生成的episode，平均每个episode有300步，总时长约324小时；'goal/'包含约8,700个基于启发式目标导向策略（关键点匹配）的episode，平均298步，总时长约73小时；'expert/'包含约21,800个采用预训练扩散策略（成功率约74%）的episode，平均228步，总时长约138小时。数据以.npz文件格式存储，每个文件包含多个episode。每个episode包含以下字段：frames（96x96 RGB像素观测，uint8类型）、actions（智能体目标位置[x,y]，float32类型）、rewards（覆盖率，float32类型）和policy（策略类型，字符串）。环境运行频率为10Hz，当rewards[t] ≥ 0.95时视为episode成功解决。

创建时间：

2026-03-18

原始信息汇总

PushT 数据集概述

数据集来源

数据集来源于 gym-pusht 环境。

数据集内容

包含视频和动作数据。

数据划分

数据集包含三个划分，具体信息如下：

划分	片段数量	平均步数/片段	时长	描述
`smooth/`	~38,900	300	~324 小时	随机平滑运动（Ornstein-Uhlenbeck 过程）
`goal/`	~8,700	298	~73 小时	启发式目标导向策略（关键点匹配）
`expert/`	~21,800	228	~138 小时	预训练的扩散策略，成功率约 74%

文件格式

每个 .npz 文件包含多个片段。可通过以下方式加载： python import numpy as np data = np.load("smooth/smooth_0000_00.npz", allow_pickle=True) n = int(data["num_trajectories"]) # 此文件中的片段数量 for i in range(n): frames = data[f"frames_{i}"] # (T+1, 96, 96, 3) uint8 — RGB 像素观测值 actions = data[f"actions_{i}"] # (T, 2) float32 — 智能体目标位置 [x, y]，范围 [0, 512] rewards = data[f"rewards_{i}"] # (T,) float32 — 覆盖率，1.0 = 已解决 policy = str(data[f"policy_{i}"]) # "smooth"、"goal" 或 "expert"

数据细节说明

frames 比 actions 多一个条目（执行第一个动作前的初始帧）。
frames[t] 是在执行 actions[t] 之前的观测值。
frames[t+1] 是在执行 actions[t] 之后的观测值。
环境运行频率为 10 Hz（每步 0.1 秒）。
当 rewards[t] >= 0.95 时（T 型块覆盖超过 95% 的目标），视为片段“已解决”。

搜集汇总

数据集介绍

构建方式

在机器人控制与强化学习领域，PushT数据集的构建体现了对多样化策略生成轨迹的系统性采集。该数据集通过三种不同策略在gym-pusht环境中执行任务，分别生成平滑随机运动、启发式目标导向策略以及预训练扩散策略的交互轨迹。每个轨迹文件以.npz格式存储，包含多段完整的交互序列，其中记录了视觉观察、执行动作、即时奖励及策略标签，确保了数据在时序上的一致性与完整性。

特点

PushT数据集的特点在于其策略的多样性与数据的结构化呈现。数据集划分为平滑运动、目标导向和专家策略三个子集，分别对应不同的行为模式与成功率，这为研究策略泛化与模仿学习提供了丰富的对比基础。数据以高帧率视频序列与连续动作空间相结合，每个时间步包含96x96像素的RGB观察和二维标准化动作向量，同时附有覆盖度奖励信号，精确反映了任务完成进度。

使用方法

使用PushT数据集时，研究人员可通过标准NumPy接口加载.npz文件，便捷地提取轨迹中的观察、动作与奖励序列。数据遵循强化学习标准格式，其中观察帧比动作多一帧，清晰区分了动作执行前后的状态变化。该数据集适用于行为克隆、离线强化学习及视觉运动策略学习等任务，其10Hz的时间分辨率与明确的成功阈值（奖励≥0.95）为算法评估提供了可靠的时间基准与性能标准。

背景与挑战

背景概述

PushT数据集源于机器人操作与强化学习领域，由HuggingFace社区于近年发布，旨在为复杂物理交互任务提供高质量的多模态轨迹数据。该数据集依托gym-pusht仿真环境构建，核心研究问题聚焦于推动操作任务的策略学习与泛化能力，通过记录智能体在二维平面上推动T形物体的视觉观察与动作序列，为模仿学习、离线强化学习及视觉运动控制等前沿方向提供了基准支持。其涵盖随机平滑运动、启发式目标导向及专家策略三种数据划分，显著促进了数据驱动型机器人策略的实证研究，对提升智能体在非结构化环境中的物理推理能力具有重要影响力。

当前挑战

PushT数据集所解决的领域问题在于推动操作中的视觉运动策略学习，其挑战体现在高维观察空间与连续动作空间的精确映射，以及长时任务中稀疏奖励信号的信用分配难题。构建过程中的挑战则涉及多源数据采集的协调：随机策略需模拟自然探索的随机性，专家策略依赖预训练扩散模型以平衡效率与成功率，而启发式策略则需设计稳健的关键点匹配算法。此外，确保数据的时间对齐、动作与观察的同步性，以及跨策略数据的一致性与可复现性，均为数据集构建带来了显著的技术复杂性。

常用场景

经典使用场景

在机器人控制与强化学习领域，PushT数据集作为一项关键资源，主要用于训练和评估基于视觉的端到端策略模型。该数据集通过模拟推块任务，提供了丰富的视频观察与动作序列，使得研究人员能够深入探索从高维像素输入到连续控制输出的映射关系。经典使用场景涉及利用其三个子集——随机平滑运动、启发式目标导向策略和预训练扩散策略——来验证模型在复杂物理交互中的泛化能力与样本效率，为视觉运动控制算法的开发奠定了坚实基础。

解决学术问题

PushT数据集有效解决了机器人学中视觉运动控制的若干核心学术问题。它通过提供大规模、多策略的轨迹数据，促进了从原始图像到连续动作的表示学习研究，克服了传统方法依赖手工特征或仿真不真实的局限。该数据集支持对模仿学习、离线强化学习及模型预测控制等范式的评估，帮助学术界深入理解高维观察空间下的策略优化、样本复用与泛化性能，推动了数据驱动控制理论的发展，并为解决现实世界中的灵巧操作任务提供了可重复的基准。

衍生相关工作

围绕PushT数据集，已衍生出一系列经典研究工作，显著推动了视觉运动控制领域的进展。例如，基于该数据集的扩散策略（Diffusion Policy）研究展示了生成模型在连续动作规划中的优越性；同时，它也被广泛用于评估离线强化学习算法如保守Q学习（CQL）在视觉输入下的性能。此外，许多研究利用其多策略数据探索了行为克隆的泛化极限、跨域适应方法以及分层强化学习框架，这些工作不仅丰富了控制理论的工具箱，也为后续更复杂的多任务与元学习研究提供了可扩展的范例。

以上内容由遇见数据集搜集并总结生成