burger-to-plate

Hugging Face2026-05-11 更新2026-05-13 收录

下载链接：

https://huggingface.co/datasets/fecasado/burger-to-plate

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人操作数据集，使用LeRobot工具创建，专门用于机器人学习任务。数据集包含名为burger-to-plate的任务，提供60个完整episodes的演示数据，共计91,719帧，所有数据均划分为训练集。数据采集自blueberry_ros机器人平台，帧率为15 fps。数据集包含多模态信息：1. 动作（action）：26维连续控制向量，包括机器人左右手臂的线速度和角速度、左右手各手指的位置控制以及底盘的操纵杆输入。2. 状态观测（observation.state）：55维向量，包括左右手臂7个关节和左右手各手指的位置与力矩反馈，以及用户视线坐标（x, y）和有效性标志。3. 图像观测（observation.images）：包含四个固定视角的同步视频流，分别是机器人左眼、右眼、用户视角和用户视线视角，视频分辨率为640x480（宽x高），3通道彩色，采用AV1编码。此外，数据还包含时间戳、帧索引、episode索引等元数据。该数据集适用于机器人模仿学习、强化学习、行为克隆等任务，特别是涉及双臂灵巧操作和视觉感知的研究。数据集以Parquet格式存储结构化数据，以MP4格式存储视频数据。

This dataset is a robotic manipulation dataset created using the LeRobot tool, specifically designed for robot learning tasks. It includes a task named burger-to-plate, providing demonstration data with 60 complete episodes, totaling 91,719 frames, all of which are allocated to the training set. The data is collected from the blueberry_ros robot platform at a frame rate of 15 fps. The dataset contains multimodal information: 1. Action: a 26-dimensional continuous control vector, including linear and angular velocities of the robots left and right arms, position control for each finger of both hands, and joystick inputs for the chassis. 2. State observation (observation.state): a 55-dimensional vector, including position and torque feedback for 7 joints of the left and right arms and each finger of both hands, as well as user gaze coordinates (x, y) and validity flags. 3. Image observation (observation.images): includes four synchronized video streams from fixed perspectives, namely the robots left eye, right eye, user perspective, and user gaze perspective. The video resolution is 640x480 (width x height), with 3-channel color and AV1 encoding. Additionally, the data contains metadata such as timestamps, frame indices, and episode indices. This dataset is suitable for tasks like robot imitation learning, reinforcement learning, and behavior cloning, particularly for research involving bimanual dexterous manipulation and visual perception. The dataset is stored in Parquet format for structured data and MP4 format for video data.

创建时间：

2026-05-08

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，精细化的任务数据集是推动技能迁移与泛化能力提升的关键资源。burger-to-plate数据集依托于LeRobot框架构建，专注于模拟机器人将汉堡从初始位置转移至餐盘这一典型操作任务。该数据集总计包含70个完整操作轨迹，涵盖106,237帧时序数据，所有数据均以15帧/秒的采样频率采集。数据存储采用分块Parquet文件架构，每块文件容纳1,000帧样本，同时辅以AV1编码的视频数据，用于记录多视角视觉信息。整个数据集未划分验证集与测试集，所有70个轨迹全部用于训练，为监督学习范式提供了密集且一致的演示样本。

特点

该数据集最显著的特点在于其多模态与高维度特性。在状态空间中，数据集提供了55维的观测向量，精确记录了双臂七自由度关节的位置与力矩、双手各指节的运动状态、以及操作者的注视点坐标。动作空间则包含26维控制信号，覆盖双臂线性与角速度、多手指关节的运动指令，以及底盘的运动控制。视觉方面，数据集同步采集了左右两个固定摄像头、操作者视角以及注视点视角共计四路640×480像素的彩色视频流。这种多层次的信息融合，使得模型不仅能够学习到精细的抓取与搬运动作，还能捕捉人类操作者的视觉关注策略。

使用方法

使用该数据集时，推荐基于LeRobot库进行高效加载与预处理。开发者可通过Hugging Face Datasets接口直接读取Parquet数据文件与关联视频流，并利用LeRobot提供的可视化工具对单条或多条轨迹进行回放与验证。在模型训练方面，该数据集适用于行为克隆、逆强化学习等模仿学习范式。研究者可提取每一时间步的状态向量与视觉观测作为输入，以对应的26维动作指令为学习目标。鉴于数据已按标准格式存储为训练集，用户无需自行拆分，可直接启动端到端的策略网络训练流程。

背景与挑战

背景概述

在具身智能与机器人学习领域，模仿学习通过人类示范数据驱动机器人掌握复杂操作技能，正成为重要范式。针对食品准备与操作这一日常场景，来自fecasado的研究团队于2023年左右构建了burger-to-plate数据集，旨在解决机器人从烹饪环境中抓取汉堡并将其精准放置到餐盘的任务。该数据集依托LeRobot框架，记录了70段示范轨迹，包含超过10万帧观测数据，涉及双机械臂与移动基座的协同控制。数据集提供了多视角视觉观测（包括用户视角与眼动追踪）、关节状态与力矩信息以及完整的动作序列，为研究机器人精细操作、多模态感知融合与长时域任务规划提供了宝贵资源。其发布不仅推动了家居机器人应用的发展，也为后续基于视觉语言模型的操作策略研究奠定了数据基础。

当前挑战

该数据集所聚焦的领域挑战在于如何让机器人有效学习从散乱环境中抓取柔性物体（如汉堡）并完成准确定位放置的精巧操作，这要求模型同时具备细粒度动作生成与物理接触推理能力。任务涉及多种子问题：如何从高维视觉观测中提取不变特征以适应不同放置位置与光照条件；如何处理双臂协调与碰撞避免；以及如何对环境干扰（如食材滑动）做出鲁棒响应。数据集构建层面亦面临挑战，包括在有限示范（70段）下获取足够覆盖不同初始状态与干扰模式的数据多样性，精确同步多模态传感器（视觉、本体感受、眼动数据）的时间戳，以及确保动作空间（26维）与状态空间（55维）记录的高保真度与低噪声。维持高质量视频编码（AV1）与大规模数据的高效存储同样构成工程上的显著难点。

常用场景

经典使用场景

在机器人学习与模仿学习领域，burger-to-plate数据集作为一项专注于精细操作任务的高质量资源，被广泛用于训练双臂机器人完成汉堡从制作台到餐盘的转移操作。该数据集包含70个演示片段，共计超过10万帧视觉与状态信息，涵盖左右机械臂的关节位置、力矩以及末端执行器动作等26维动作空间，辅以左、右及用户视角的多路视频流与眼动数据。研究者通常利用此数据集训练基于行为克隆或逆强化学习的策略，使机器人能够从人类演示中习得抓取、抬升、平移与释放的连贯动作序列。其独特的双眼视觉输入与手部精细控制信号，为研究多模态感知融合下的灵巧操作提供了标准化测试平台，成为验证模仿学习算法在复杂餐具操作中泛化能力与鲁棒性的基准案例。

衍生相关工作

围绕burger-to-plate数据集衍生出了一系列富有影响力的研究工作。在算法层面，有学者基于该数据集提出了改进的扩散策略用于学习多模态演示中的动作分布，显著提升了对噪声观测的鲁棒性；另有工作探索了将眼动追踪信号作为辅助监督信号引入模仿学习框架，以增强机器人在遮挡场景下的操作精度。在系统层面，该数据集被用于验证基于Transformer架构的视觉-动作联合建模方法，推动了操作策略从单一任务向多技能泛化的演进。此外，基于该数据集开发的预训练模型成为LeRobot开源生态中的关键组件，激发了大量关于数据增强、域随机化以及人机共享控制的后续研究，共同构筑了机器人灵巧操作领域的知识图谱。

数据集最近研究