fecasado/toast1-to-plate

Name: fecasado/toast1-to-plate
Creator: fecasado
Published: 2026-05-01 15:24:52
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/fecasado/toast1-to-plate

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，包含机器人操作的相关数据。数据集结构包括数据文件、视频文件和特征描述。元数据信息显示，数据集包含40个episodes，26777帧，1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为15fps。特征包括动作、观察状态、图像（左、右、用户、用户视线）以及时间戳、帧索引、episode索引等。数据集适用于机器人技术研究和应用。

This dataset was created using LeRobot and contains data related to robotic operations. The dataset structure includes data files, video files, and feature descriptions. Metadata indicates that the dataset consists of 40 episodes, 26777 frames, 1 task, with data files sized at 100MB and video files at 200MB, running at 15fps. Features include actions, observation states, images (left, right, user, user gaze), as well as timestamps, frame indices, episode indices, etc. The dataset is suitable for robotics research and applications.

提供机构：

fecasado

搜集汇总

数据集介绍

构建方式

在机器人操作任务的学习中，高质量的数据集是模仿学习和策略泛化的基石。toast1-to-plate数据集专为从推车（blueberry_ros机器人平台）上抓取烤面包片并放置于餐盘这一精细化操作任务而设计，共包含70个完整演示片段，累计超过4.5万帧时序数据。数据集基于LeRobot框架构建，每段演示以15帧/秒的频率同步记录机器人双臂与底座的运动指令（action）、关节位置与力矩等55维状态信息（observation.state），以及来自左、右、用户视角和用户视线跟踪的四路RGB视频（480×640分辨率，以AV1编码压缩）。原始数据被切分为若干大小为1000帧的数据块，以Parquet格式高效存储，视频则单独以MP4文件组织，整体数据与视频体积分别约为100 MB和200 MB，兼顾了访问效率与存储经济性。

特点

该数据集最显著的特征在于其多模态、高维度且与真实机器人物理特性高度对齐的设计。动作空间包含26维连续变量，涵盖双臂的线速度与角速度、五指开合（各两自由度）以及底盘的二维运动指令，完整刻画了双手机器人在狭窄空间内的协调操作能力。状态观测集则融合了关节位置、力矩反馈与视线有效性信息，为学习吸盘抓取、避障与精确放置提供了丰富的上下文线索。同时，四路摄像头同步捕获的视觉流能够帮助模型从多个空间参考系理解操作场景，尤其用户视线追踪数据为基于注意力机制的行为克隆提供了独特的机会。

使用方法

使用该数据集进行机器人模仿学习时，推荐在Python环境中通过Hugging Face的LeRobot库进行加载。开发者可使用`lerobot.common.datasets.LeRobotDataset`接口，指定数据集名称`fecasado/toast1-to-plate`与所需的任务标签，即可自动解析元数据并返回结构化的迭代器对象。数据集仅包含训练集（共70个片段），因此在训练期间可直接用于监督学习或行为克隆框架。为提升数据利用效率，用户可结合LeRobot内置的帧采样、图像归一化及数据增强流水线，将多路视频与状态信息拼接为统一输入张量，并利用26维动作标签计算损失函数。由于数据已按固定时间戳对齐，亦适用于离线强化学习中的轨迹回放或基于Transformer的序列建模方法。

背景与挑战

背景概述

在机器人学习领域，模仿学习与示教数据集的构建对于推动具身智能发展至关重要。数据集toast1-to-plate由研究者fecasado基于LeRobot框架创建，专注于机器人从初始状态抓取吐司并放置到餐盘这一精细操作任务。该数据集通过Blueberry ROS机器人平台采集，包含70个演示片段，累计超过4.5万帧的高频状态-动作序列，并同步记录了左右手相机、用户视角及眼动追踪等多模态视觉信息。其核心研究问题在于如何利用多源感知数据复现人类操作意图，从而为双臂协同与物体操控提供标准化训练基准。通过公开25维动作空间与55维状态观测的精细化特征，该数据集为机器人操作策略的学习与泛化能力评估奠定了重要基础。

当前挑战

当前领域面临的核心挑战在于，机器人需将高维视觉输入与连续动作空间精准映射，以完成从吐司抓取到平移放置的动态序列。数据集构建中面临多模态数据同步难题，四路摄像头（分辨率480×640）与64维关节状态需在15FPS下保持帧级对齐，且机械臂的力矩信息与视觉反馈需在毫秒级时间窗口内融合；同时，仅有70条演示轨迹的有限样本规模难以覆盖真实场景中的物体位姿变化与光照干扰，对模型的泛化能力构成严峻考验。此外，机器人操作策略的迁移性受限于硬件差异，导致从仿真到实际部署存在显著行为鸿沟，亟需通过元学习或域随机化方法突破数据效率瓶颈。

常用场景

经典使用场景

在机器人学习与操控领域，toast1-to-plate数据集为双臂协作任务的模仿学习与行为克隆提供了理想的训练素材。该数据集记录了70个完整操作序列，包含超过45000帧高清视觉观察与高维动作指令，涉及将面包片从初始位置放置到碟子中的精细作业。研究者可借助其同步采集的左右手关节位置、力矩、双目摄像头及人眼注视热点等多模态信息，训练机器人精准复现复杂的双手协调动作，尤其适用于构建基于视觉-动作联合表征的端到端操控策略。

衍生相关工作

围绕该数据集，衍生出一系列经典研究方向，包括利用扩散策略（Diffusion Policy）实现高维动作序列生成、基于Transformer的时空注意力模型对长程操作依赖进行建模，以及运用对比学习从多摄像头视角中提取不变特征以增强策略鲁棒性。此外，部分工作探索了将人类注视信号作为先验信息辅助机器人目标定位，或通过元学习方法从少量演示中快速适配新物体形状与重量，这些衍生工作共同构成了从数据驱动到认知引导的机器人学习技术谱系。

数据集最近研究