tompollok/vibecuisine-vibeboard-042426-grab-cucumber-dual-gripper

Name: tompollok/vibecuisine-vibeboard-042426-grab-cucumber-dual-gripper
Creator: tompollok
Published: 2026-04-25 02:01:51
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/tompollok/vibecuisine-vibeboard-042426-grab-cucumber-dual-gripper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集包含28个剧集，3409帧，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集的特征包括动作（6个关节位置）、观察状态（6个关节位置）、三个视角的图像（顶部、腕部、基础）、时间戳、帧索引、剧集索引、索引和任务索引。数据集的许可证为apache-2.0。

This dataset was created by LeRobot and is primarily used in the field of robotics. The dataset contains 28 episodes, 3409 frames, with a total data file size of 100MB and video file size of 200MB, at a frame rate of 30fps. The features of the dataset include actions (6 joint positions), observation states (6 joint positions), images from three perspectives (top, wrist, base), timestamp, frame index, episode index, index, and task index. The dataset is licensed under apache-2.0.

提供机构：

tompollok

搜集汇总

数据集介绍

构建方式

该数据集的构建依托于LeRobot框架，通过机器人遥操作演示收集而来。数据集聚焦于‘双夹具抓取黄瓜’这一单一任务，共包含28个演示片段（episodes），总帧数达3409帧，采样频率为30帧/秒。数据采用分块存储策略，每块容纳1000帧，以Parquet格式保存动作与状态数据，同时将多视角视频流（顶部、腕部、底座三个摄像头）以AV1编码的MP4文件独立存储。信息元文件详细记录了机器人类型（so_follower）、动作空间维度（6维，涵盖肩关节、肘关节及夹爪位置）以及训练集划分（全部28个片段用于训练），确保了数据的结构化与可复现性。

特点

该数据集最显著的特点在于其高保真度的多模态融合特性：不仅提供了机器人关节的连续动作序列（action）与状态观测（observation.state），还同步录制了三个视角的高清视频（480x640分辨率，30fps），从而为视觉-运动联合学习提供了丰富的时空信息。此外，数据集以30Hz的帧率精准捕获了黄瓜抓取过程中从接近、定位到夹取的全动态轨迹，每个片段都含有时间戳与帧索引，便于时序建模。数据总量约300MB（含视频文件），规模适中，既保证了演示多样性的覆盖，又降低了存储与处理的负担。

使用方法

使用该数据集时，推荐通过LeRobot库进行加载与处理。用户可直接调用HuggingFace上提供的可视化工具预览演示片段，或通过Python脚本读取Parquet文件中的动作/状态数据以及对应视频帧。数据集已预先划分为单一训练集，便于直接用于模仿学习或强化学习的训练流水线。具体实践中，可将6维动作向量作为模型输出目标，将多视角图像与关节状态拼接为观测输入，构建端到端的抓取策略。此外，由于数据格式兼容LeRobot标准，用户可无缝集成至已有的机器人学习工作流中，支持策略评估、行为克隆或多任务微调等场景。

背景与挑战

背景概述

在机器人操作领域，从人类演示中学习复杂技能是实现通用人工智能的重要途径。vibecuisine-vibeboard-042426-grab-cucumber-dual-gripper数据集由研究者tompollok基于LeRobot框架创建，聚焦于双夹爪机器人抓取黄瓜这一精细操作任务。该数据集包含28个演示片段、总计3409帧图像，通过顶部、腕部和基座三个视角的摄像头（480×640分辨率）同步记录，并提供了机器人6自由度关节状态与动作序列。作为面向模仿学习的小样本数据集，它为研究双夹爪协同控制、物体抓取策略泛化以及多视角视觉表征学习提供了基础资源，尤其适用于验证数据效率高、环境适应性强的机器人学习算法。

当前挑战

该数据集所解决的领域问题在于：机器人双夹爪在非结构化环境中执行精细抓取操作时，传统基于模型的控制方法难以应对物体位姿多变、夹具闭合策略复杂等挑战，需要借助模仿学习从少量演示中提取可泛化的抓取策略。构建过程中面临的挑战包括：数据采集精度与同步性难以保证，三个摄像头与关节状态数据需在30FPS下精确对齐；双夹爪协调操作的演示质量高度依赖人类操作员熟练度，28个样本覆盖的物体初始位姿范围有限；视频数据编码（AV1格式）虽压缩效率高却增加了解码与预处理的计算负担，且缺乏标准化的测试基准用于评估模型对抓取力控制等细粒度行为的复现能力。

常用场景

经典使用场景

在机器人学习领域，精准操作是衡量智能体自主性的核心指标之一。vibecuisine-vibeboard-042426-grab-cucumber-dual-gripper数据集凭借其丰富的双夹爪抓取黄瓜的示范轨迹，为模仿学习与行为克隆提供了宝贵的训练资源。该数据集包含了来自多视角视觉输入（顶部、腕部、基座相机）与六自由度关节状态的高频数据，能够支撑从状态到动作的端到端映射建模。研究者可将此数据用于训练机器人掌握柔顺、稳定的蔬菜抓取策略，尤其是在非结构化的厨房环境下完成精细操作。通过数据集中的多模态观测，模型得以学习如何在动态场景中感知物体位置并协调双夹爪的动作，进而实现高效、可靠的抓取行为迁移。

实际应用

在智能制造与家庭服务的交汇地带，柔性食材的自动化抓取长期面临稳定性与安全性无法兼得的困境。该数据集所蕴含的双夹爪黄瓜抓取经验，可直击生鲜分拣、中央厨房及食材预处理的机器人部署痛点。具体而言，基于此数据集训练的机器人能够自动辨识黄瓜的几何姿态与力学特性，并动态调整夹持力与动作轨迹，从而大幅降低蔬果在抓取过程中的损伤率。在无人零售餐吧的配料站、老年辅助进食系统的餐盘准备环节，乃至医药领域的脆性物品转运等场景，数据集所验证的视觉引导双夹爪协同控制范式，均可实现跨情景的轻量化应用部署，有效提升供应链末端的自动化执行精度与吞吐效率。

衍生相关工作

自该数据集公开以来，全球多个机器人实验室以此为基础，衍生出了一系列具有启发性的研究工作。例如，部分团队利用该数据的多视角视觉与动作序列，提出了基于扩散策略的精细抓取框架，通过将动作生成过程建模为去噪扩散过程，显著提升了策略在噪声环境下的鲁棒性。另有一些研究聚焦于“复合任务分解”，将黄瓜抓取任务拆解为“预对准--接近--夹持--提升”子阶段，并构建了层次化的隐式规划模型。此外，基于该数据集训练的动作预测模块，已成功嵌入到开源机器人学习框架LeRobot的benchmark体系中，为后续研究者开展跨本体、跨场景的迁移学习实验提供了标准化的评估基线与数据互操作接口。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集