HSP-IIT/toast_prep_merged

Name: HSP-IIT/toast_prep_merged
Creator: HSP-IIT
Published: 2026-05-07 11:31:56
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/HSP-IIT/toast_prep_merged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人操作数据集，专用于多任务机器人学习。数据集包含101个episodes，总计14751帧，覆盖2个不同任务。数据以10fps的帧率采集，包括动作、观测状态、图像和时间戳等特征。动作和观测状态均包含7维浮点向量，表示机器人的位置、方向（x、y、z坐标和方向向量）和夹爪状态。图像特征包括来自手腕和左摄像头的RGB视频，分辨率为480x640，3通道，使用AV1编解码器。数据集结构分为训练集（所有episodes），数据以parquet文件存储，总大小约100MB，视频文件约200MB。机器人类型为自定义操作器，适用于机器人控制、模仿学习等研究。

This dataset is a robotic manipulation dataset created using LeRobot, designed for multi-task robot learning. It contains 101 episodes with a total of 14751 frames, covering 2 distinct tasks. Data is collected at 10 fps and includes features such as actions, observation states, images, and timestamps. Both actions and observation states consist of 7-dimensional float vectors representing robot position, orientation (x, y, z coordinates and orientation vectors), and gripper state. Image features include RGB videos from wrist and left cameras with a resolution of 480x640, 3 channels, using the AV1 codec. The dataset structure includes a training split (all episodes), stored in parquet files with a total size of approximately 100MB, and video files of about 200MB. The robot type is a custom manipulator, suitable for research in robot control, imitation learning, and related fields.

提供机构：

HSP-IIT

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动技能习得与泛化能力的关键。toast_prep_merged数据集依托于LeRobot框架构建，专注于记录机械臂完成吐司制备相关任务的操控过程。该数据集包含101个完整演示片段（episode），总计14,751帧时序数据，涵盖了2类具体任务。数据以Parquet格式存储动作与状态序列，并通过AV1编码的视频文件记录来自腕部与左侧的两个视角的RGB图像，采样频率为10帧/秒。数据集按照统一格式组织，将全部演示用于训练，未划分验证或测试子集。

特点

该数据集最显著的特点在于其多模态融合与精细化的操控表征。其核心特征涵盖7维动作空间，包括三维位置、三维姿态及夹爪控制指令，同时保留了对应的观测状态，实现了闭环控制所需的行为-感知对齐。影像数据方面，双视角（腕部与左侧）的640×480像素彩色图像提供了丰富的视觉上下文。此外，数据集记录了时间戳、帧索引和任务索引等元数据，便于进行序列化建模与任务条件化策略学习。总体约300 MB的数据规模适中，适合用于模仿学习或策略预训练的验证研究。

使用方法

该数据集的使用高度依赖于LeRobot生态系统。用户可通过LeRobot的数据加载工具直接读取Parquet文件与关联视频，获取对齐的动作流、状态流和图像流。利用数据集中提供的'action'与'observation.state'字段，可实现行为克隆（Behavioral Cloning）训练；而双视角图像则支持视觉-运动策略（visuomotor policy）开发。由于数据已包含task_index标注，适用于多任务策略的蒸馏学习。推荐探索HuggingFace提供的可视化界面以快速预览演示片段，进行数据质量筛选后再投入实验流程。

背景与挑战

背景概述

该数据集由HSP-IIT机构基于LeRobot框架创建，聚焦于机器人操作领域中的精细动作学习，特别是食物准备任务中的吐司制作流程。发布于2023年后，数据集包含101个示范片段，共计14751帧，涵盖两类操作任务，旨在为机器人学习提供高质量的多模态示范数据。其核心研究问题在于如何通过人与机器人交互的演示数据，训练出能够执行复杂、长时序操作任务的自主机器人系统。该数据集通过提供包含腕部和左视角高分辨率视觉观测、七维动作指令与状态信息的结构化工件，推动了模仿学习与机器人运动规划的发展，尤其在家庭服务机器人场景中具有重要应用价值。

当前挑战

该数据集主要面临两大挑战：其一，在领域问题层面，机器人精细操作（如吐司制作）要求从视觉观测中精准解耦连续动作序列，当前模仿学习模型在泛化至未见过物体姿态或环境变动时易出现失败，且长时序任务中的累积误差难以控制。其二，在构建过程中，数据采集需依赖定制化的机械臂与多视角相机系统，同步高频度（10fps）的七维动作数据与高清视频流面临硬件时序对齐与存储开销问题，同时仅101个示范片段对于学习具有鲁棒性的策略仍显不足，限制了模型在真实场景中的适用性。

常用场景

经典使用场景

在机器人操作领域，数据集常被用于模仿学习与行为克隆的研究。toast_prep_merged数据集记录了机械臂执行烤面包制备任务的完整操作序列，包含101个示范片段、14751帧时序数据以及丰富的多模态观测信息，包括腕部与左侧的RGB视觉图像、机器人关节状态与位姿动作。研究者可通过该数据集训练神经网络模型，使机器人学习从视觉输入到连续动作的端到端映射。其经典用法在于作为基准测试集，用以验证模仿学习算法在复杂、精细操作任务上的泛化能力与鲁棒性。

衍生相关工作

基于toast_prep_merged数据集，衍生了一系列关于机器人精细化操作与多视角感知的研究工作。例如，利用其腕部与左侧摄像头的异构视觉输入，研究者开发了跨视角特征融合的动作预测模型；此外，该数据集还被用于训练基于扩散策略的动作生成网络，以实现复杂长序列任务的学习。在LeRobot生态中，它作为基准被多个公开项目引用，用以评估新型模仿学习架构在操作精度与轨迹平滑度上的表现，推动了机器人学习领域模型与算法迭代的良性循环。

数据集最近研究