five

toast1-to-plate

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/fecasado/toast1-to-plate
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个机器人学数据集,使用LeRobot创建。数据集包含51个episodes,总计33780帧,数据以parquet文件格式存储,并配有相应的视频文件。数据集的结构包括动作和观察状态,其中动作特征包括26个浮点数值,分别对应左右手臂和手的线性、角度及手指位置。观察状态包括55个浮点数值,涵盖手臂和手的位置及力度信息,以及视线数据。此外,数据集还提供来自不同视角的图像观察,包括左、右、用户和用户视线视角的视频,分辨率为480x640,帧率为15fps。数据集适用于机器人控制和行为学习等任务,采用Apache 2.0许可证。

This is a robotics dataset developed using LeRobot. The dataset contains 51 episodes, totaling 33,780 frames. The data is stored in Parquet file format, accompanied by corresponding video files. The dataset structure includes action and observation state features. The action features consist of 26 floating-point values, which respectively correspond to the linear, angular, and finger position data of the left and right arms and hands. The observation states include 55 floating-point values, covering the position and force information of the arms and hands, as well as gaze data. In addition, the dataset provides image observations from multiple perspectives, including videos from left, right, ego (user), and ego-gaze viewpoints, with a resolution of 480×640 and a frame rate of 15 fps. This dataset is suitable for tasks such as robot control and behavioral learning, and is released under the Apache 2.0 license.
创建时间:
2026-05-01
原始信息汇总

数据集概述:toast1-to-plate

基本信息

  • 许可证:Apache-2.0
  • 任务类别:机器人学(Robotics)
  • 创建工具:LeRobot
  • 机器人类型:blueberry_ros
  • 数据集版本:v3.0

数据集规模

  • 总片段数:70
  • 总帧数:45,446
  • 任务数量:1
  • 帧率:15 FPS
  • 数据文件大小:约 100 MB
  • 视频文件大小:约 200 MB

数据划分

  • 训练集:片段 0 至 69(全部 70 个片段均用于训练)

数据结构与特征

该数据集包含以下主要特征:

1. 动作(Action)

  • 数据类型:float32
  • 维度:26
  • 描述:包含双臂线性与角速度、手指关节位置及基座控制信号。
  • 组件
    • 左臂线性/角速度(6维)
    • 左手指关节(6维)
    • 右臂线性/角速度(6维)
    • 右手指关节(6维)
    • 基座控制(2维)

2. 观测状态(Observation State)

  • 数据类型:float32
  • 维度:55
  • 描述:包含双臂关节位置、力矩信息及注视点坐标。
  • 组件
    • 左臂关节位置(7维)
    • 左手指关节位置(6维)
    • 右臂关节位置(7维)
    • 右手指关节位置(6维)
    • 左臂关节力矩(7维)
    • 左手指关节力矩(6维)
    • 右臂关节力矩(7维)
    • 右手指关节力矩(6维)
    • 注视点坐标及有效性(3维)

3. 观测图像(Observation Images)

包含四个摄像头视角,每个视角的视频参数相同:

  • 分辨率:480 x 640 像素
  • 颜色通道:3(RGB)
  • 编码格式:AV1
  • 帧率:15 FPS
  • 视角
    • observation.images.left:左摄像头
    • observation.images.right:右摄像头
    • observation.images.user:用户视角摄像头
    • observation.images.user_gaze:用户凝视视角摄像头

4. 辅助字段

  • 时间戳(float32):每帧时间
  • 帧索引(int64)
  • 片段索引(int64)
  • 全局索引(int64)
  • 任务索引(int64)

数据集路径

  • 数据文件:data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频文件:videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
搜集汇总
数据集介绍
main_image_url
构建方式
toast1-to-plate数据集基于LeRobot框架构建,专注于机器人操控任务。该数据集通过采集蓝莓机器人(Blueberry ROS)在实际物理环境中执行将物体从烤面包机转移到餐盘的操作过程而形成。数据采集共包含70个完整演示回合,累计帧数达45446帧,每帧以15帧/秒的速率记录。采集的数据以Parquet格式存储于分块文件中,同时附带同帧率的MP4视频文件,分别来自左、右、用户视角以及用户注视方向的多角度视觉信息。数据集的划分方案将所有回合归入训练集,未设立验证或测试集,以支持模仿学习等机器人策略的端到端训练。
特点
该数据集的核心特点在于其多模态与高维度的状态-动作空间设计。动作空间涵盖26维向量,融合了双臂的线性与角速度、多指手部关节的精细控制以及基座移动的操纵指令。状态空间则更为丰富,包含55维观测变量,细致记录了双臂各关节位置与力矩、手部关节位置与力矩,以及注视点坐标和有效性标志。此外,数据集提供了四路同步视频流,包括左、右相机、用户视角相机及用户注视引导相机,均为480×640分辨率,采用高效的AV1编码压缩。这些特征共同构建了一个全面的机器人操作场景,非常适合研究双臂协同、精细抓取及视觉引导的操控策略。
使用方法
借助LeRobot生态系统的便捷性,用户可通过HuggingFace平台直接在线可视化该数据集,无需本地下载即可预览演示视频与动作序列。在开发环境中,用户可使用LeRobot的Python库加载该数据集,通过指定数据集路径与分块索引,高效读取Parquet格式的时序数据与对应的视频帧。数据集按1000帧大小进行分块,便于分布式处理与内存管理。研究人员可利用其提供的动作与状态向量训练模仿学习或强化学习模型,同时结合多视角视频实现视觉运动策略的学习。对于采用端到端策略的机器人学习框架,该数据集可直接作为训练集使用,其统一的数据格式降低了预处理门槛。
背景与挑战
背景概述
随着机器人学习领域的迅猛发展,模仿学习与基于演示的编程技术在复杂操作任务中展现出巨大潜力,而高质量、可复现的数据集成为推动该领域进步的关键基石。toast1-to-plate数据集由研究机构或个人开发者为robotics任务创建,发布时间不详,依托LeRobot开源框架构建,旨在为双臂机器人(blueberry_ros)的精细操作——即将一片吐司从初始位置转移至盘子——提供标准化的训练与评估素材。该数据集内含70个演示片段,共计45446帧,涵盖双机械臂关节角度、末端执行器六维力/力矩、手指关节位置与力矩、基座移动与注视点数据,并同步采集了左、右、用户及用户注视共四路高清视频(480×640,15fps),总数据量约300MB。通过开源许可apache-2.0对外发布,它为研究双臂协调、感知-动作耦合与泛化性策略提供了稀缺的基准资源,在机器人操作领域内有望促进从仿真到真实环境的迁移学习研究。
当前挑战
该数据集所应对的领域核心挑战在于双臂协作下的复杂环境适应与操作泛化。具体而言,它直面了以下困难:1)双臂系统的高维度动作空间(26维)与状态空间(55维)带来的控制与策略学习复杂性,传统单臂方法难以直接迁移;2)任务本身涉及物体抓取、姿态调整与放置的完整流程,对视觉感知的鲁棒性与力控精度要求极高;3)数据集规模相对较小(仅70段演示,单任务),限制了深度网络对多样化初始条件与新手法的泛化能力,容易引发过拟合。在构建过程中,还需克服以下技术障碍:4)多传感器(关节编码器、力矩传感器、三视视觉与眼动追踪)的精确时空同步与标定,确保动作与观测数据的一致性;5)使用AV1视频编码存储视觉流,在降低空间占用的同时需保证解压缩后的帧率与画质无损,以维持训练信息的完整性。
常用场景
经典使用场景
在机器人操作与模仿学习领域,toast1-to-plate数据集堪称一项弥足珍贵的资源。它借助LeRobot框架采集,囊括了从起始状态到面包置盘这一完整操作流程的70个演示片段,总计超过45000帧的视觉与运动信息。尤为突出的是,该数据集同时记录了双机械臂26维动作空间、55维状态观测(涵盖关节位置与力矩),以及来自四个视角(左、右、用户、用户视线)的同步视频流。这使得研究者在构建端到端的视觉-运动策略模型时,能够轻松获取高保真的机器人操控轨迹,成为训练机器人执行精细抓取与放置任务的经典基石。
实际应用
在现实工业与生活场景中,toast1-to-plate数据集蕴含的巨大潜力正逐步释放。例如,将其训练出的策略部署至协作机器人上,可实现餐厅自动摆盘、厨房食材预处理等标准化且重复度高的操作任务。同时,数据集覆盖的‘视线追踪’与‘用户视角’视频信息,为开发人机协作场景下的远程操控或共享控制接口提供了宝贵的非接触式输入源,让机器人能更自然地理解人类操作者意图,显著提升了装配线中物料搬运与精准放置的作业效率与安全性。
衍生相关工作
基于toast1-to-plate数据集,学术界与工业界已衍生出多项里程碑式的工作。其中最具代表性的当属LeRobot生态系统内的多种预训练模型,如自适应力矩预测网络和视觉-运动变换器(Visual-Motor Transformer),它们均在这一数据上完成了基础策略的预训练。后续研究者进一步将其与扩散策略(Diffusion Policy)相结合,生成了能够平滑生成连续操作轨迹的生成式模型,有效缓解了传统行为克隆中的累积误差问题。此外,该数据集还催生了跨场景迁移学习的研究,探索如何将在‘面包置盘’任务中学到的抓取姿态泛化到其他类似精细操作任务中,推动了机器人操作技能的通用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作