MoMa-Kitchen

Name: MoMa-Kitchen
Creator: 复旦大学, 上海人工智能实验室, 中国科学技术大学, 西北工业大学, 中国电信电信科技有限责任公司
Published: 2025-03-14 12:47:38
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

https://momakitchen.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MoMa-Kitchen是由上海人工智能实验室创建的大型数据集，包含超过10万样本，用于训练模型学习移动操作中的最佳最终导航位置。数据集由569个不同厨房场景组成，每个场景包含多个目标物体和障碍物，通过模拟各种真实世界场景，为模型提供了丰富的训练数据。数据集采用自动化管道收集视觉数据，并使用机器人臂进行操作，生成导航便利性标签。该数据集旨在解决移动操作中导航与操作整合的挑战，特别是在家庭环境中的最后一公里定位问题。

MoMa-Kitchen is a large-scale dataset developed by the Shanghai AI Laboratory, which contains over 100,000 samples and is designed to train models to learn the optimal final navigation positions for mobile manipulation tasks. The dataset consists of 569 distinct kitchen scenarios, each equipped with multiple target objects and obstacles. By simulating various real-world scenarios, it provides rich training data for models. The dataset collects visual data through an automated pipeline, and uses robotic arms to perform manipulation operations to generate navigation convenience labels. This dataset aims to address the challenges of integrating navigation and manipulation in mobile manipulation, particularly the last-mile localization problem in home environments.

提供机构：

复旦大学, 上海人工智能实验室, 中国科学技术大学, 西北工业大学, 中国电信电信科技有限责任公司

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

MoMa-Kitchen数据集的构建采用了全自动化的数据收集流程，涵盖了多样化的厨房场景。通过模拟真实世界中的复杂环境，数据集生成了127,343个样本，涵盖了569个不同的厨房场景。每个场景中，机器人移动操作器尝试在杂乱环境中抓取目标物体，并通过RGB-D输入和第一人称视角摄像头捕捉视觉数据。数据收集过程中，机器人从多个随机采样的视角获取RGB-D图像和点云数据，并通过高斯插值生成密集的导航可操作性标签。这一流程确保了数据的高质量和多样性，为模型训练提供了坚实的基础。

特点

MoMa-Kitchen数据集的特点在于其规模庞大且多样化的场景设置。数据集包含超过100,000个样本，涵盖了569个不同的厨房场景，每个场景中都有不同的家具布局、目标物体和障碍物。数据集不仅提供了RGB-D图像和点云数据，还生成了导航可操作性标签，帮助模型学习如何在复杂环境中进行最优的导航和操作。此外，数据集还考虑了不同机器人手臂和平台高度的多样性，确保模型能够适应多种硬件配置。这些特点使得MoMa-Kitchen成为移动操作领域中一个极具挑战性和实用性的基准数据集。

使用方法

MoMa-Kitchen数据集的使用方法主要围绕导航可操作性的学习和预测展开。通过输入RGB-D图像和机器人相关参数（如手臂的伸展范围、平台高度等），模型可以生成地板上的可操作性地图，指示机器人可以站立的位置以进行可靠的操作。数据集中的视觉数据和可操作性标签可以用于训练轻量级基线模型NavAff，该模型通过RGB-D和点云输入进行导航可操作性预测。此外，数据集还可以用于评估模型在不同硬件配置和场景复杂度下的泛化能力，帮助研究人员开发更鲁棒的移动操作算法。

背景与挑战

背景概述

MoMa-Kitchen数据集由上海人工智能实验室、复旦大学、中国科学技术大学等机构的研究人员于2025年提出，旨在解决移动操作中的‘最后一英里’导航问题。该数据集包含超过10万个样本，涵盖了569个多样化的厨房场景，提供了丰富的训练数据，帮助模型学习如何在复杂环境中进行最优的导航定位，以便顺利过渡到后续的操作任务。数据集通过自动化流水线生成，模拟了真实世界中的多种场景，并生成了用于最优操作位置的affordance标签。视觉数据通过安装在机械臂上的第一人称视角RGB-D相机采集，确保了数据采集过程中的视角一致性。MoMa-Kitchen的提出填补了导航与操作之间的鸿沟，推动了移动操作机器人在家庭环境中的应用。

当前挑战

MoMa-Kitchen数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，传统的导航算法通常仅关注接近目标位置，而忽略了后续操作的可行性。例如，机器人可能停在机械臂无法触及的位置，或者被空间障碍物阻挡，导致操作无法进行。MoMa-Kitchen通过引入affordance-grounded导航，解决了这一难题，确保机器人能够在接近目标的同时，选择最优的操作位置。其次，在数据构建过程中，如何在大规模复杂场景中生成精确的affordance标签是一个关键挑战。数据集通过自动化流水线模拟了多种真实场景，并利用多种机械臂模型进行抓取尝试，生成了精确的地面affordance标签。此外，数据采集过程中需要确保视觉数据的一致性，并处理不同机械臂模型和平台高度的多样性，进一步增加了数据构建的复杂性。

常用场景

经典使用场景

MoMa-Kitchen数据集在移动操作领域中被广泛用于解决导航与操作之间的‘最后一英里’问题。通过提供超过10万个样本，该数据集为模型学习如何在复杂环境中进行最优导航提供了丰富的训练数据。其经典使用场景包括在厨房环境中，机器人需要从杂乱的环境中抓取目标物体，同时避免与障碍物发生碰撞。数据集中的每个样本都包含了从机器人第一视角采集的RGB-D数据，确保了数据的一致性和实用性。

实际应用

在实际应用中，MoMa-Kitchen数据集为家庭服务机器人提供了强大的支持。例如，在厨房环境中，机器人可以通过该数据集学习如何在复杂的布局中导航并抓取目标物体，如从台面上取回瓶子或打开橱柜。这种能力不仅提高了机器人在家庭环境中的实用性，还为未来的智能家居系统奠定了基础。此外，该数据集还可用于工业自动化中的移动操作任务，如仓库中的货物搬运。

衍生相关工作

MoMa-Kitchen数据集催生了一系列相关研究工作，特别是在导航与操作集成领域。基于该数据集，研究人员开发了轻量级基线模型NavAff，该模型通过RGB-D和点云输入进行导航可操作性预测，并在MoMa-Kitchen基准测试中表现出色。此外，该数据集还启发了其他研究团队探索如何在不同硬件平台上实现导航与操作的通用性，推动了移动操作系统的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集