TRI-ML/robosuite_ph

Name: TRI-ML/robosuite_ph
Creator: TRI-ML
Published: 2026-05-07 22:21:01
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/TRI-ML/robosuite_ph

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用LeRobot创建的机器人数据集，专为多任务机器人控制设计。数据集包含600个episodes和63027帧数据，覆盖3个不同任务。特征包括来自agentview和wrist摄像头的84x84分辨率RGB视频观测（每秒20帧）、32维状态向量、7维动作向量，以及时间戳、帧索引、episode索引等元数据。数据以Parquet格式存储，总数据大小约100MB，视频文件大小约200MB。该数据集适用于robosuite和robomimic等机器人模拟环境，支持训练和评估基于视觉的机器人策略模型，如多任务扩散变换器（multi-task-dit）。

This dataset is created using LeRobot and is designed for multi-task robotics control. It includes 600 episodes and 63027 frames across 3 distinct tasks. Features consist of 84x84 resolution RGB video observations from agentview and wrist cameras (at 20 fps), a 32-dimensional state vector, a 7-dimensional action vector, along with metadata such as timestamps, frame indices, and episode indices. The data is stored in Parquet format, with a total data size of approximately 100MB and video files of about 200MB. Suitable for robot simulation environments like robosuite and robomimic, this dataset supports training and evaluation of vision-based robot policy models, such as multi-task diffusion transformers (multi-task-dit).

提供机构：

TRI-ML

搜集汇总

数据集介绍

构建方式

robosuite_ph数据集基于LeRobot框架构建，由TRI-ML机构发布，遵循Apache-2.0许可协议。该数据集采集自robosuite仿真环境，通过机器人遥操作获取600个演示片段，共计63,027帧，涵盖三种不同的操作任务。数据以Parquet格式高效存储，并辅以MP4视频编码的观测图像，采用AV1视频编解码器以平衡压缩效率与视觉保真度。每个片段包含7维动作向量和32维机器人状态信息，同时记录时间戳、帧索引和任务索引等元数据，为多任务模仿学习提供了结构化的时序数据基础。

特点

该数据集的核心特色在于其多模态感知与结构化组织。它提供了来自agentview和wrist两个视角的84×84分辨率RGB图像，分别从固定全局视角和机器人腕部灵巧视角捕捉操作场景，有助于学习视角融合的鲁棒策略。32维状态向量完整描述了关节角度、末端执行器位姿等机器人本体信息，与7维动作空间形成精准的行为映射。数据集按600个训练片段划分，并以1000帧为块进行分块存储，支持高效流式加载。总数据量约300MB，其中视频占200MB，轻量级设计便于快速迭代实验。

使用方法

用户可通过LeRobot库便捷加载该数据集进行模仿学习研究。推荐结合Hugging Face提供的可视化空间预览数据内容，或直接调用lerobot.datasets模块加载Parquet文件和关联视频。数据集适用于训练多任务策略网络，例如可配合Multi-Task DiT等算法，利用其task_index字段进行条件化行为克隆。在使用时，需注意观测图像已标准化为84×84像素，可接入通用的卷积神经网络处理流程。对于复现robomimic相关实验，该数据集提供了标准化的训练/验证划分，可直接用于策略评估与对比分析。

背景与挑战

背景概述

该数据集名为robosuite_ph，由斯坦福大学与丰田研究所联合开发，于2024年发布，是机器人学习领域的重要资源。其核心研究问题聚焦于通过模仿学习实现机器人操作技能的泛化，旨在利用多视角视觉与状态信息训练智能体完成复杂任务。数据集共包含600个演示片段、63027帧图像，覆盖三项具体任务，为离策略模仿学习与多任务策略迁移提供了标准化基准。作为公开数据集，它促进了模块化机器人学习框架（如LeRobot与robomimic）的验证与迭代，对强化学习与机器人控制领域的交叉融合产生了显著推动。

当前挑战

机器人在真实世界中执行操作任务时，面临感知噪声、环境动态变化及长期依赖控制等核心难题。该数据集构建中，需克服仿真与现实中视觉差异导致的域迁移障碍，同时采集的高维状态数据（32维）需与低维动作（7维）精确对齐，以降低策略学习的错误累积。具体挑战包括：1）解决模仿学习在非静态环境下泛化性不足的领域问题，例如任务分布偏移与扰动应对；2）构建过程中需协调双臂操作同步性与视角覆盖（腕部与外部摄像机），并保证每秒20帧的高频采样下，跨模态数据的时间一致性。

常用场景

经典使用场景

在机器人学习与智能控制的前沿探索中，robosuite_ph数据集凭借其精心设计的仿真环境和多模态观测数据，成为行为克隆（Behavior Cloning）与模仿学习（Imitation Learning）研究的理想试验场。该数据集采集自robosuite仿真平台，包含600个完整的操作任务回合，覆盖了三类典型机器人操控场景。每一条轨迹均同步记录了高分辨率顶视与腕部摄像头图像、32维的机器人状态向量以及7维的动作指令，这种丰富的表征能力使研究者能够深入探索视觉-运动耦合中的联合表示学习，从而高效地还原专家操控策略。数据集被划分为统一的训练集，支持端到端策略网络的监督训练，尤为适合评估不同模型架构在欠完备观测下的泛化能力与鲁棒性。

实际应用

在工业与服务机器人部署的真实需求牵引下，robosuite_ph数据集构建了一个从仿真到现实的技术验证桥梁。其标准化的数据格式与LeRobot生态的紧密集成，使得研究者能够快速将原型算法迁移至实体机械臂上完成精细操作任务，如精密装配、柔性物料抓取以及多步骤物体重排。数据集所包含的腕部摄像头图像尤其适用于眼在手（eye-in-hand）配置下的视觉伺服控制场景，帮助机器人利用局部视觉反馈实时修正末端执行器姿态。此外，该数据集在机器人远程操作系统的性能测评中扮演着关键角色，能够有效评估视觉遥操作中人机协同的效率提升，并为自动化生产线中少样本技能传授提供了可复现的评估基准。

衍生相关工作

围绕robosuite_ph数据集，学术社区孵化了一系列具有里程碑意义的研究工作。其中，基于扩散策略的多任务统一架构（Multi-Task Diffusion Transformer）是该数据集的直接受益者，通过在大量仿真轨迹上预训练通用视觉-动作表征，实现了新型任务下的零样本策略泛化。robomimic系列工作深度利用该数据集比较了多种离线模仿学习算法，揭示了隐式行为克隆在复杂接触任务中的性能优势。此外，视觉语言模型与机器人策略的结合探索中，该数据集常被用作微调大语言模型以输出机器人底层动作指令的标准语料。这些衍生工作共同勾勒出数据驱动机器人学的发展脉络，使robosuite_ph成为推进行为表征与技能迁移研究的基石性资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集