YINGFENG001/shake_food

Name: YINGFENG001/shake_food
Creator: YINGFENG001
Published: 2026-04-25 12:07:38
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/YINGFENG001/shake_food

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人数据集。包含50个episode，共计29,950帧数据，采集频率为30fps。数据集包含机器人动作(7个关节位置)、观测数据(相同的关节位置状态，以及480x640分辨率的前视和侧视摄像头图像)和各种索引(时间戳、帧、episode、任务)。数据以parquet格式存储，数据文件总大小为100MB，视频文件总大小为200MB。

This dataset was created using LeRobot. It contains 50 episodes with a total of 29,950 frames collected at 30 fps. The dataset includes robot actions (7 joint positions), observations (same joint positions as state, plus front and side camera images at 480x640 resolution), and various indices (timestamp, frame, episode, task). The data is stored in parquet files with a total size of 100MB for data and 200MB for videos.

提供机构：

YINGFENG001

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，高质量的行为克隆数据集对于模仿学习算法的训练至关重要。shake_food数据集基于LeRobot框架构建，旨在为机器人抓取与操作任务提供标准化训练资源。该数据集通过Seeed B601双机械臂遥操作平台采集，其中一台机械臂由人类引导完成摇动食物容器的动作，另一台作为从动臂同步记录运动轨迹。采集过程以30帧/秒的频率捕获，共包含50个示范回合，总计29950帧有效数据。所有数据以Parquet格式存储，视频片段采用H.264编码，确保视觉信息的压缩效率与回放质量。数据集结构严格遵循LeRobot v3.0规范，将数据切分为1000帧大小的块文件，并自动划分训练集与测试集，便于直接接入深度学习流水线。

特点

该数据集的核心特色在于其多模态对齐能力与紧凑的实验设计。每个数据样本同步记录七维关节空间动作指令（包括肩部、肘部、腕部及夹爪的旋转角度）与对应的状态观测值，形成完整的闭环控制信息链。视觉模态方面，数据集配备了正面与侧面两个视角的640×480分辨率彩色视频流，为视觉运动策略提供了丰富的环境感知维度。值得注意的是，所有50个回合均执行单一任务指令（摇动食物容器），这种任务聚焦的设计有助于消除策略学习中的任务分布混淆，使模型更易于捕获特定操作的时序模式。数据集总存储体积约300MB，包含100MB的结构化运动数据与200MB的视频数据，平衡了信息密度与实用性。

使用方法

使用shake_food数据集时，推荐基于LeRobot生态库进行加载与预处理。研究人员可通过HuggingFace Datasets库直接读取Parquet文件，或利用LeRobot内置的Dataset类自动解析数据分块与视频流。在模仿学习任务中，可将观测空间定义为关节状态与双视角图像帧的对齐序列，动作空间对应七维连续关节目标值。鉴于数据集已预设统一的帧率与chunk_size参数，使用时需注意将多回合数据按帧索引拼接成连续轨迹，并利用episode_index字段区分不同演示片段。对于策略网络输入，建议对图像帧进行中心裁剪与归一化处理，关节状态向量可按统一尺度标准化。该数据集特别适用于基于Transformer的时序动作生成模型或行为克隆初始化后的微调场景。

背景与挑战

背景概述

随着机器人学习领域的蓬勃发展，数据驱动的模仿学习与强化学习方法对高质量、标准化的操作数据集需求日益迫切。在此背景下，shake_food数据集于近期由Hugging Face社区的LeRobot框架团队构建并发布，旨在为机器人抓取与摇动操作任务提供基准训练资源。该数据集聚焦于单任务操作场景（如摇动食物），采集了50个演示轨迹，包含近3万帧多视角视频（前视与侧视，分辨率640×480，30fps）及对应的关节空间状态与动作序列，覆盖了7自由度机械臂的完整运动信息。作为LeRobot生态系统的一部分，该数据集遵循Apache-2.0开源许可，为机器人技能学习、模型泛化及跨平台迁移研究提供了标准化的数据基础设施，对推动具身智能领域的可复现研究具有重要奠基作用。

当前挑战

在领域问题层面，该数据集所服务的核心挑战在于如何通过少量演示使机器人掌握非刚体物体（如松散食物）的精细操作能力，这涉及复杂的动力学建模、抓取稳定性控制以及视觉-运动耦合的泛化问题。在数据集构建过程中，团队面临多重技术挑战：首先，实时同步采集两个高清摄像头（前视与侧视）图像流与机械臂7维关节状态数据，需要精准的时序对齐与高带宽数据管道；其次，确保50个演示中任务变体（如不同初始食物状态）的充分覆盖，以避免数据偏置；此外，将原始轨迹统一编码为parquet格式并生成标准化的视频文件，需设计鲁棒的存储与压缩方案，最终达成100MB结构数据与200MB视频数据的轻量级部署，为大规模数据集的生产与复用提供了实践参照。

常用场景

经典使用场景

在机器人学习与灵巧操作领域，shake_food数据集被广泛用于训练和评估基于视觉的模仿学习算法。该数据集采集自Seeed B601 DM跟随机器人，包含50个演示片段，记录了摇动食物这一精细操作任务的完整流程。每个片段提供了30帧每秒的高清视觉观测（包括前置和侧置摄像头）以及7维关节空间的动作序列，为端到端的机器人技能学习提供了高质量的示范数据。研究者常利用该数据集构建从像素到动作的映射模型，探索机器人在动态交互任务中的泛化能力。

解决学术问题

该数据集有效解决了机器人操作研究中示范数据稀缺与技能迁移困难的核心问题。经典的模仿学习方法往往受限于数据量不足或任务单一，而shake_food数据集提供了标准化、可复现的摇动任务轨迹，使得学术界能够在统一基准上比较不同算法的性能。它推动了状态估计、动作预测与多模态融合等方向的发展，例如如何从视觉流中学习稳定的抓取与摇动策略，以及如何应对任务执行中的随机扰动。该数据集的存在显著降低了机器人操作研究的入门门槛，加速了从仿真到真实世界的技能迁移探索。

衍生相关工作

基于shake_food数据集，涌现了一系列具有影响力的相关工作。研究者们在其基础上发展了多任务模仿学习框架，将摇动技能与其他操作技能（如抓取、放置）进行联合训练，提升了模型的通用性能。同时，该数据集也催生了关于数据增强策略的研究，例如通过视角变换或时序裁剪生成虚拟演示，从而缓解过拟合现象。此外，部分工作专注于探索逆强化学习方法，从示范数据中推断奖励函数，以支持更鲁棒的策略学习。这些衍生工作共同推动了机器人技能获取从单一任务向可组合、可迁移的系统性演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集