AIRBOT_MMK2_place_the_cake

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/RoboCOIN/AIRBOT_MMK2_place_the_cake

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为AIRBOT_MMK2_place_the_cake的数据集，基于LeRobot的扩展格式，并与LeRobot完全兼容。数据集包含了丰富的场景类型、原子动作和任务描述，以及多种相机视角和丰富的标注信息，支持多种学习方式。数据集的目标是研究机器人如何在家庭环境中执行放置蛋糕的任务。

创建时间：

2025-11-18

原始信息汇总

AIRBOT_MMK2_place_the_cake 数据集概述

基本信息

数据集名称: AIRBOT_MMK2_place_the_cake
许可证: Apache-2.0
支持语言: 英语、中文
任务类别: 机器人学
规模分类: 10K-100K
标签: RoboCOIN、LeRobot

技术规格

机器人类型: AIRBOT_MMK2
代码库版本: v2.1
末端执行器类型: 五指手
场景类型: 家庭环境
原子动作: 抓取、拾取、放置

数据集统计

指标	数值
总情节数	249
总帧数	50001
总任务数	5
总视频数	996
总分块数	1
分块大小	1000
帧率	30

任务描述

主要任务

从桌子上拿起一个蛋糕放在黄色立方体上，然后从桌子上拿起另一个蛋糕放在蓝色立方体上
从桌子上拿起一个蛋糕放入白色盖子中，然后从桌子上拿起冰淇淋放入白色盖子中，最后从桌子上拿起另一个蛋糕放入白色盖子中
拿起蛋糕放在盘子上，然后从盘子上拿起该蛋糕放回桌子
拿起一个冰淇淋放入小白盆中，然后拿起另一个冰淇淋放入小白盆中
拿起一个瑞士卷放在盘子上，然后拿起另一个瑞士卷放在盘子上

子任务

包含20个不同的子任务，涵盖抓取和放置动作的各种组合

数据特征

视觉观测

4个相机视角:
- cam_high_rgb
- cam_left_wrist_rgb
- cam_right_wrist_rgb
- cam_third_view
视频规格: 480×640分辨率，30FPS，AV1编码

状态与动作

observation.state: 36维浮点数组（关节位置）
action: 36维浮点数组（关节控制命令）

注释信息

子任务注释: 精细的子任务分割和标注
场景注释: 语义场景分类和描述
末端执行器注释: 方向、速度、加速度分类
夹爪注释: 开闭状态、活动状态

运动特征

末端执行器仿真位姿: 6D位姿信息（位置和方向）
末端执行器方向: 运动方向分类
末端执行器速度: 速度大小分类
末端执行器加速度: 加速度大小分类

数据组织

文件结构

数据文件: Parquet格式，按分块组织
视频文件: MP4格式，按相机视角组织
元数据: JSON格式，包含数据集完整信息

数据分割

训练集: 情节0-248

作者与链接

贡献者: RoboCOIN团队
主页: https://flagopen.github.io/RoboCOIN/
论文: https://arxiv.org/abs/2511.17441
代码库: https://github.com/FlagOpen/RoboCOIN
问题反馈: https://github.com/FlagOpen/RoboCOIN/issues

兼容性

基于LeRobot扩展格式，完全兼容LeRobot框架

引用信息

如需在研究中使用此数据集，请引用提供的arXiv论文和LeRobot框架

搜集汇总

数据集介绍

构建方式

在机器人操作数据采集领域，AIRBOT_MMK2_place_the_cake数据集采用AIRBOT_MMK2双手机器人平台，通过五指灵巧手执行精细的抓取放置任务。该数据集基于LeRobot扩展格式构建，包含249个完整操作片段，总计50001帧数据，涵盖5种主要任务类型。数据采集过程采用分块存储策略，将数据组织为1个数据块，每个块包含1000个操作片段，确保数据管理的系统性和高效性。多视角视觉数据以30帧率同步采集，采用AV1编码格式进行压缩存储，为机器人学习提供丰富的感知信息。

使用方法

研究人员可通过LeRobot框架直接加载该数据集，利用其标准化的数据接口进行机器人操作策略的训练与验证。数据集采用Parquet格式存储状态与动作数据，MP4格式存储多视角视频流，支持高效的批量读取与处理。训练集包含0至248号操作片段，覆盖全部任务类型，可直接用于端到端模仿学习或分层强化学习算法的训练。丰富的运动特征标注支持多种学习范式，包括状态估计、动作预测和任务分解等研究方向，为双手机器人协同操作提供全面的基准测试平台。

背景与挑战

背景概述

在机器人操作领域，双手机器人系统的精细化控制一直是研究热点。AIRBOT_MMK2_place_the_cake数据集由RoboCOIN团队于2025年构建，依托LeRobot框架扩展格式开发，聚焦家庭环境中的物体抓取与放置任务。该数据集采用AIRBOT_MMK2机器人平台与五指灵巧手末端执行器，通过249个任务片段、5万余帧多视角视频数据，系统记录了抓取蛋糕、放置甜点等复合操作序列。其核心研究在于解决双手机器人协同操作中的动作规划与场景适应性问题，为具身智能研究提供了高精度动作标注与多模态感知数据支撑。

当前挑战

双手机器人操作面临末端执行器轨迹优化与多物体交互的复杂性挑战。该数据集构建过程中需克服五指灵巧手精细抓取的动态建模难题，包括12个手部关节的同步控制与受力反馈模拟。多视角视频数据同步采集时存在时空对齐偏差，而36维状态动作空间的标注工作涉及运动学链式关系的精确解析。场景泛化能力受限于单一家庭环境配置，复杂物体形变下的抓取策略迁移仍是待突破的瓶颈。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过模拟家庭环境中的蛋糕摆放任务，为双臂机器人精细操作研究提供了标准化实验平台。其包含抓取、拾取和放置等基础动作序列，配合多视角视觉数据与末端执行器运动轨迹，成为评估模仿学习与强化学习算法的基准测试集。研究人员能够基于真实物理交互数据，验证机器人对复杂物体操作的泛化能力与任务完成效率。

解决学术问题

该数据集有效解决了机器人操作中动作分割与任务规划的学术难题。通过精细标注的20种子任务与多模态运动特征，为研究双臂协调控制、动态抓取策略提供了数据支撑。其丰富的末端执行器位姿与力学参数，助力突破机器人操作中的状态表征学习瓶颈，推动从感知到动作的端到端学习框架发展，对提升机器人自主操作智能具有重要理论价值。

实际应用

在服务机器人领域，该数据集支撑了家庭环境下的物品整理系统开发。基于蛋糕摆放任务训练的模型可迁移至餐具布置、食品分装等实际场景，其多指手抓取策略为易碎物品操作提供技术参考。工业场景中衍生的双机械臂协同装配技术，亦受益于该数据集对精细操作轨迹的完整记录，显著提升了自动化生产线的灵活性与可靠性。

数据集最近研究