HSP-IIT/toast_prep_step2

Name: HSP-IIT/toast_prep_step2
Creator: HSP-IIT
Published: 2026-05-07 11:28:48
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/HSP-IIT/toast_prep_step2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个机器人操作数据集，由LeRobot创建。数据集包含51个episodes和8798帧数据，主要用于机器人操作任务。数据包括动作数据（位置、方向、夹持器状态）、观察状态（与动作数据相同）、手腕和左侧RGB图像（480x640分辨率，10fps），以及时间戳、帧索引、episode索引等信息。数据集采用Apache 2.0许可证。

This is a robotics manipulation dataset created by LeRobot. It contains 51 episodes and 8798 frames, primarily designed for robotic manipulation tasks. The dataset includes action data (position, orientation, gripper state), observation state (same as action data), wrist and left RGB images (480x640 resolution, 10fps), as well as timestamps, frame indices, episode indices, etc. The dataset is licensed under Apache 2.0.

提供机构：

HSP-IIT

搜集汇总

数据集介绍

构建方式

toast_prep_step2数据集由HSP-IIT团队利用LeRobot框架构建，专为机器人操作任务设计。该数据集包含51个演示轨迹，总计8798帧，采样频率为10帧/秒。数据以Parquet格式存储，涵盖机器人末端执行器的七维动作与状态信息（位置、姿态及夹爪状态），同时配有来自腕部和左侧的两路RGB视频流，分辨率为480×640像素。数据集采用分块存储策略，每块最多包含1000帧，便于高效加载与管理。

特点

该数据集的核心特点在于其多模态对齐特性，同步记录了机器人状态、动作指令与视觉观测，为模仿学习提供完整的时空对应关系。所有动作与状态数据均以32位浮点数精确表示，视频采用AV1编码以平衡画质与存储效率。数据集仅含单一任务（吐司准备步骤2），但提供51个高质量演示，确保数据的一致性。其结构化的分块存储与元数据配置支持灵活的训练/测试分割，当前全部数据用作训练集。

使用方法

使用该数据集时，推荐基于LeRobot框架进行加载与预处理。用户可通过配置特征字典直接访问动作、状态及图像序列，利用帧索引与时间戳对齐多模态数据。模型训练可采用行为克隆或扩散策略，将七维动作作为监督信号，视觉编码器处理双视角RGB图像，状态编码器处理七维观测。数据集支持批量处理，分块存储设计便于分布式数据加载。建议结合机器人仿真环境进行策略验证，并注意视频解码时需支持AV1格式。

背景与挑战

背景概述

在机器人操作领域，数据驱动的学习范式正逐步取代传统的基于模型的控制方法，然而高质量、低成本的人机演示数据仍属稀缺资源。toast_prep_step2数据集由意大利技术研究院（HSP-IIT）基于LeRobot框架创建，专注于细粒度的机器人操作任务——吐司制备的第二步。该数据集包含51个演示片段、共计8798帧，记录了机械臂在三维空间中的末端执行器位置、姿态及夹爪状态，并同步采集了腕部与左侧的RGB视觉观测。作为一项面向机器人模仿学习的基础资源，它旨在解决细粒度操作任务中数据采集标准化与可复现性的难题。该数据集的发布为机器人自主学习复杂操作技能提供了高保真度的训练素材，对推动具身智能在家庭服务领域的应用具有潜在影响力。

当前挑战

该数据集所应对的领域挑战在于，传统方法难以稳定实现多自由度机械臂的精确顺序操作，如吐司制备这类包含抓取、移动与放置的多阶段任务，亟需从人类演示中高效学习空间变换与力控策略。构建过程中遇到的挑战包括：维持演示质量一致性，51个片段需确保动作轨迹与视觉视角的重复无偏；多模态数据同步标定，需将10Hz下的7维状态向量、双路视频流与时间戳对齐，避免时序漂移；以及有限样本规模（仅51个片段）下如何平衡数据多样性，防止过拟合。此外，阿帕奇2.0许可下的数据集开源标准要求元数据结构透明化，在打包时需将100MB的parquet数据与200MB的AV1编码视频高效组织，以满足社区复现与微调的需求。

常用场景

经典使用场景

在机器人学习与模仿学习领域，toast_prep_step2数据集为研究者提供了执行吐司准备任务的精细操作数据，涵盖机械臂的七维动作指令（位置、姿态与夹爪状态）以及腕部和左侧RGB视觉观测。该数据集由51个完整操作轨迹组成，以10帧每秒的频率记录，共汇聚8798帧的高保真动作与影像信息。经典使用场景聚焦于训练机器人通过行为克隆或离线强化学习掌握端到端的食物处理流程，从而在仿真环境或实体平台上复现递进式的厨房操作行为。

解决学术问题

该数据集旨在解决机器人领域中泛化操作学习的核心瓶颈，即如何从少量的人类演示中高效获取可迁移的技能表征。通过提供标准化、多模态的精细厨房任务演示，它支持研究人员深入探索视觉运动策略的耦合机制、动作序列的局部一致性以及多视角融合对复杂操作成功率的提升作用。该数据集的发布推动了小样本模仿学习与可控动作生成等前沿问题的研究，并奠定了家庭服务机器人从结构化任务向非结构化环境拓展的实证基础。

衍生相关工作

基于这一数据集，研究者已衍生出多种经典工作，如采用扩散策略建模机器人轨迹与视觉观测之间的跨模态映射，或者依靠预训练的视觉编码器联合动作解码器实现零样本迁移至同类型精细化操作任务。另一些工作则探索了面向非专家用户的数据采集协议与数据增强方法，旨在扩充至数十种厨房场景。该数据集作为LeRobot生态的一部分，亦催生了多套公开基准与对比实验框架，促进了可复现的模仿学习算法在真实机器人平台上的公平评测与持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集