AIRBOT_MMK2_food_storage

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/RoboCOIN/AIRBOT_MMK2_food_storage

下载链接

链接失效反馈

官方服务：

资源简介：

AIRBOT_MMK2_food_storage是一个基于LeRobot扩展格式的数据集，包含344个机器人操作任务，包括抓取、拾取和放置动作。数据集包括7个主要任务和27个子任务，涵盖了家庭场景。数据集提供了丰富的注释，包括子任务分割、场景描述、末端执行器方向、速度、加速度、抓取器状态和活动状态等。数据集还包括末端执行器仿真姿态、抓取器打开尺度等特征。数据集按照LeRobot格式组织，包含视频、状态数据和动作数据等。

创建时间：

2025-11-18

原始信息汇总

AIRBOT_MMK2_food_storage 数据集概述

基本信息

数据集名称: AIRBOT_MMK2_food_storage
许可证: Apache-2.0
支持语言: 英语、中文
任务类别: 机器人技术
标签: RoboCOIN, LeRobot
规模分类: 10K-100K

技术规格

机器人类型: AIRBOT_MMK2
代码库版本: v2.1
末端执行器类型: 五指手
数据格式: 基于LeRobot的扩展格式，完全兼容LeRobot

场景与动作

场景类型

家庭环境

原子动作

抓取
拾取
放置

数据集统计

指标	数值
总情节数	344
总帧数	58969
总任务数	7
总视频数	1376
总分块数	1
分块大小	1000
帧率	30

任务描述

主要任务

用一只手将土豆放入一个隔间，同时保持另一只手静止
用双手同时从桌上拿起蛋糕和冰淇淋，然后同时扔进碗和盘子
用一只手从盘子里取出海绵放在桌上，然后用另一只手从桌上拿起蛋糕放在盘子上
用一只手从桌上拿起一个鸡蛋放在盘子上，然后用另一只手从桌上拿起另一个鸡蛋放在盘子上
用一只手从桌上拿起鸡蛋放入蛋盒，然后用另一只手盖上蛋盒
用一只手从桌上拿起红烧肉放入盘子，然后用另一只手从桌上拿起虾放入盘子
用一只手拿起一个蛋糕放在木架上，用另一只手拿起另一个蛋糕放在木架上

子任务

包含27个不同的子任务，涵盖抓取、放置、关闭等具体操作

数据特征

视觉观察

4个摄像头视角：高位RGB、左手腕RGB、右手腕RGB、第三视角
分辨率：480×640
帧率：30 FPS
编码：AV1

状态与动作

观察状态: 36维浮点数（包含左右手臂和手部关节角度）
动作: 36维浮点数（关节控制命令）

时间信息

时间戳、帧索引、情节索引、任务索引

注释信息

子任务注释
场景注释
末端执行器运动特征（方向、速度、加速度）
夹爪状态（模式、活动状态）
末端执行器仿真姿态

数据组织

文件结构

数据文件: Parquet格式，按分块组织
视频文件: MP4格式，按摄像头视角组织
元数据: JSON格式，包含数据集信息

数据分割

训练集: 情节0-343

作者与链接

贡献者

RoboCOIN团队

版本信息

初始版本: v1.0.0 (2025年11月)

搜集汇总

数据集介绍

构建方式

在机器人操作数据集的构建领域，AIRBOT_MMK2_food_storage数据集采用扩展的LeRobot格式进行系统化构建。该数据集通过AIRBOT_MMK2双手机器人平台，在家庭场景中采集了344个完整操作序列，涵盖抓取、拾取、放置等基础动作。数据采集过程整合了四路视觉传感器，以30帧率同步记录全局视角与腕部视角的RGB视频流，同时通过36维状态向量与动作向量精确记录机器人关节运动轨迹。所有数据按1000个片段规模进行分块存储，形成包含58969帧的标准化数据集。

特点

该数据集在机器人操作研究领域展现出显著的多模态特征。其核心优势在于提供了四路同步视觉观测数据，包括全局视角、双腕部视角及第三方视角的480x640分辨率视频流。数据集精心标注了27种精细子任务，涵盖抓取动作、放置策略及双手协调操作等复杂场景。运动特征方面，完整记录了末端执行器的六维位姿、运动方向、速度等级及加速度幅度等关键参数，同时包含抓持器开合状态与活动模式的分类标注。这种多层次标注体系为机器人模仿学习与行为分析提供了丰富的监督信号。

使用方法

在机器人学习算法的应用实践中，该数据集通过标准化数据接口支持端到端的模型训练。研究者可通过加载parquet格式的状态-动作序列，结合MP4格式的多视角视频数据，构建视觉-运动联合表征模型。数据集采用LeRobot兼容格式，支持直接调用现成数据加载器进行批量处理。训练时可利用子任务标注进行分层学习，或基于连续动作空间进行策略优化。丰富的运动特征注解为动力学建模、轨迹规划等研究任务提供了坚实基础，四路视觉流则适用于多视角融合与注意力机制等前沿算法验证。

背景与挑战

背景概述

在机器人操作研究领域，双手机器人协同执行复杂任务一直是前沿探索方向。AIRBOT_MMK2_food_storage数据集由RoboCOIN团队于2025年构建，聚焦于家庭环境中的食物存储场景。该数据集依托AIRBOT_MMK2双手机器人平台，通过五指灵巧手实现精细操作，涵盖抓取、拾取、放置等基础动作链。其核心研究目标在于解决双手机器人在非结构化环境中的动态协调问题，通过包含344个任务片段、58969帧多视角数据的大规模标注，为机器人模仿学习与行为预测提供了重要基准。

当前挑战

双手机器人操作面临动作时序同步与空间避障的双重挑战，需解决多关节运动学耦合下的轨迹规划问题。数据集构建过程中需克服多传感器数据融合的技术难点，包括四路视觉流与36维关节状态的时空对齐。灵巧手操作易受物体形变特性影响，鸡蛋、海绵等非刚性物体的抓取力度控制要求毫米级精度。此外，双任务并行执行时产生的动作干涉现象，对行为分割标注的粒度提出了更高要求。

常用场景

经典使用场景

在机器人操作学习领域，AIRBOT_MMK2_food_storage数据集为双手机器人协同操作提供了标准化实验平台。该数据集聚焦家庭环境中的食物存储任务，通过抓取、拾取、放置等基础动作序列，系统记录了五指灵巧手对鸡蛋、蛋糕、土豆等易损食品的精细操作过程。其多视角视觉数据与完整的关节状态轨迹，为研究双臂协调控制与物体形变适应机制奠定了数据基础。

衍生相关工作

依托该数据集衍生的经典研究包括基于LeRobot框架的跨模态模仿学习系统，其通过视觉-动作映射实现了操作技能的快速迁移。RoboCOIN项目提出的分层决策架构，利用子任务标注实现了复杂操作的模块化分解。多项研究进一步扩展了数据集的应用边界，包括基于动态抓握力分析的食品形变补偿算法，以及多视角视觉特征融合的操作状态估计方法。

数据集最近研究