robosuite_ph
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/TRI-ML/robosuite_ph
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过LeRobot创建的,专注于机器人技术领域。数据集包含从机器人视角和手腕摄像头捕获的视频数据,以及机器人的状态观察和动作数据。视频数据的分辨率为84x84,帧率为20fps,格式为AV1编码的YUV420P。状态观察数据包含32个浮点数,动作数据包含7个浮点数。数据集总共有600个episodes,63,027帧,涉及3个任务。数据以parquet文件格式存储,总数据文件大小为100MB,视频文件大小为200MB。适用于机器人学习、多任务决策等研究场景。数据集采用Apache-2.0许可证。
提供机构:
Toyota Research Institute
创建时间:
2026-05-08
搜集汇总
数据集介绍

构建方式
该数据集依托于robosuite仿真环境,通过LeRobot框架采集而成,专为机器人操作任务设计。它利用多视角视觉传感(包括环境摄像头与腕部摄像头)和状态传感器,同步记录机器人执行任务时的观测信息与动作指令。数据从robomimic标准采集流程中衍生,包含了600个演示回合,总计超过6.3万帧的时间序列数据,并以Parquet格式高效存储结构化信息。
特点
数据集兼具多样性与结构化特征:覆盖3种不同的操作任务,每个回合提供84×84像素的双视角视觉观测(全局视角与腕部视角)和32维机器人状态向量,同时记录7维动作空间指令。其视频数据采用AV1编码压缩,在保持细节的同时优化存储,200MB的视频与100MB的结构化数据总量为模型训练提供了充足样本。数据集以统一的元信息文件明确标注帧率(20 FPS)与数据层级,便于跨任务泛化研究。
使用方法
通过LeRobot库可便捷加载数据集,其内置的标准化接口支持直接获取观测图像、状态与动作序列。用户既可以利用提供的可视化工具(HuggingFace Spaces)预览演示内容,也能按episode索引访问完整的回合数据。数据集已按比例划分训练集(0至599集),兼容robomimic等主流机器人学习框架,适用于模仿学习与离线强化学习等范式,特别是多任务策略训练或视觉-动作联合建模场景。
背景与挑战
背景概述
robosuite_ph数据集由TRI-ML团队基于LeRobot框架构建,于近年发布,旨在为机器人学习领域提供高质量的操作演示数据。该数据集聚焦于多任务模仿学习,包含600个演示片段,涵盖三种不同的机器人操作任务,例如物体抓取与放置等。通过提供高频率(20 FPS)的84x84分辨率图像,以及来自机械臂前视角和腕部摄像头的双视角视觉观察,并结合完整的机器人状态与动作信息,该数据集为研究从视觉输入到动作输出的端到端策略提供了关键资源。其标准化结构与开源许可(Apache-2.0)促进了多任务决策与长程操作领域模型的训练与评估,对推动机器人智能体在复杂环境中的泛化能力具有重要影响力。
当前挑战
在机器人学习领域,核心挑战在于使智能体从有限的高维视觉演示中高效学习可泛化的操作策略,robosuite_ph数据集正是为应对这一问题而设计。具体而言,该数据集致力于解决模仿学习中的数据效率低下与任务多样性不足等瓶颈,600个演示片段对训练鲁棒策略而言仍显稀疏。数据集构建过程中亦面临挑战:如何确保在不同任务间采集的传感器数据(如腕部与视角相机图像)具有时间对齐与空间一致性;如何平衡视觉分辨率(84x84)带来的计算开销与模型精度;以及如何标准化异构机器人系统的状态表示(32维状态向量与7维动作空间),以支持跨平台迁移与多任务学习框架的无缝集成。
常用场景
经典使用场景
在机器人学习领域,robosuite_ph数据集是模仿学习与行为克隆研究的基石。该数据集通过提供由专业策略(如前馈神经网络或人工遥操作)生成的600个高质量演示轨迹,覆盖了三个复杂操作任务,为研究者构建从视觉观测到连续动作的端到端映射提供了理想训练资源。借助丰富的观测模态——包括84×84像素的俯视摄像头与腕部摄像头图像,以及32维的机器人状态向量,该数据集成为了验证深度模仿学习算法在真实高维状态空间中泛化能力的标准测试平台。
解决学术问题
学术界长期受困于机器人操作任务中演示数据稀缺且噪声高的问题,而robosuite_ph数据集通过提供大规模、高质量且结构化的多任务演示,显著降低了训练门坎。它解决了从高维视觉输入中提取有效控制策略的难题,使得研究者能够聚焦于算法创新而非数据收集。该数据集的问世推动了模仿学习在机器人操作领域从理论走向实证,促使了泛化能力更强、样本效率更高的新型策略学习方法(如隐式模仿学习)的涌现,实质性地催化了基于视觉的机器人操作研究范式的变革。
衍生相关工作
基于robosuite_ph数据集,学术界诞生了一系列标志性工作。robomimic框架率先将其作为核心基准,系统性地对比了行为克隆、逆强化学习及能量基模仿学习在机器人操作任务中的表现。后续,Multi-Task Diffusion Transformer(MTDT)利用该数据集中多任务演示的关联性,通过扩散模型生成了连贯的空间-时间动作序列,实现了跨任务策略的零样本泛化。此外,在视觉-语言导航与操作联合建模的研究中,该数据集的多模态特性被用于训练将自然语言指令映射为底层关节动作的端到端模型,成为连接语言理解与物理世界交互的重要枢纽。
以上内容由遇见数据集搜集并总结生成



