MomaGraph-Scenes

Name: MomaGraph-Scenes
Creator: 加州大学伯克利分校, 马里兰大学学院市分校, 多伦多大学
Published: 2025-12-19 02:59:03
License: 暂无描述

arXiv2025-12-19 更新2025-12-20 收录

下载链接：

https://HybridRobotics.github.io/MomaGraph/

下载链接

链接失效反馈

官方服务：

资源简介：

MomaGraph-Scenes是由加州大学伯克利分校等机构联合构建的首个大规模家庭环境任务驱动场景图数据集，包含多视角观测、执行动作及其交互对象部件的丰富标注。该数据集创新性地统一了空间与功能关系建模，并引入部件级交互节点标注，为具身智能提供了细粒度、动态且任务对齐的结构化表示。数据来源于真实家庭环境，通过多模态数据采集和人工标注构建，旨在解决移动机械臂在家庭场景中导航与操作协同的语义理解难题，为视觉-语言模型的强化学习训练提供支撑。

MomaGraph-Scenes is the first large-scale task-driven scene graph dataset for home environments, jointly constructed by the University of California, Berkeley and other institutions. It contains rich annotations of multi-view observations, executed actions and their interacting object parts. The dataset innovatively unifies the modeling of spatial and functional relationships, and introduces part-level interactive node annotations, providing fine-grained, dynamic, task-aligned structured representations for embodied AI. The dataset is sourced from real home environments and built via multi-modal data collection and manual annotation, aiming to address the challenge of semantic understanding for coordinated navigation and manipulation of mobile robotic arms in home scenarios, and support reinforcement learning training for vision-language models.

提供机构：

加州大学伯克利分校, 马里兰大学学院市分校, 多伦多大学

创建时间：

2025-12-19

原始信息汇总

MomaGraph数据集概述

数据集名称

MomaGraph-Scenes

数据集简介

MomaGraph-Scenes是首个为具身代理设计的大规模、富含标注、任务驱动的场景图数据集。该数据集旨在提供更全面且与任务相关的场景表示，联合编码空间关系和功能关系，并明确表示交互元素（如手柄和按钮）。

数据集规模与构成

任务导向子图：约1,050个。
多视角RGB图像：6,278张。
覆盖场景：超过350个不同的家庭场景。
任务指令：93条不同的任务指令。
数据来源：结合了手动收集的真实世界数据、重新标注的现有数据集以及使用AI2-THOR构建的模拟环境。

数据集特点

注释比先前数据集显著更详细。
在对象和部件级别捕获交互语义。
场景布局、对象配置和交互类型具有丰富的可变性，支持具身推理的稳健学习和评估。

数据集示例

任务指令："Power on the christmas tree lights."
节点：["outlet", "christmas tree lights"]
边：包含功能关系（"provide power"）、空间关系（["lower_than", "right_of"]）、接触状态（false）等信息。
动作类型："insert"
功能类型："power_supply"

关联基准测试

MomaGraph-Bench是首个联合评估细粒度场景理解和任务规划能力的基准测试，涵盖不同难度级别。其设计原则是评估场景理解的进步是否能为下游任务规划和推理带来切实改进。

基准测试构成

评估能力：包含六项基本推理能力：(1) 动作序列推理, (2) 空间推理, (3) 对象可供性推理, (4) 前提与效果推理, (5) 目标分解, (6) 视觉对应。
数据规模：包含294个不同的室内场景、1,446张多视角图像、352个任务导向场景图，涵盖1,315个实例。
难度范围：从简单对象操作（第1级）到复杂多步规划（第4级）场景。
泛化性保证：所有评估场景均来自完全未见过的环境，以确保评估反映的是泛化能力而非记忆。

关联模型

MomaGraph-R1是一个基于MomaGraph-Scenes数据集、通过强化学习训练的70亿参数视觉-语言模型。该模型在"图后规划"框架下预测任务导向的场景图，并作为零样本任务规划器。

模型性能

在MomaGraph-Bench基准测试上达到71.6%的准确率，比最佳基线模型提升+11.4%。
在开放源代码模型中达到最先进的结果。
能够泛化到公共基准测试，并有效地迁移到真实机器人实验。

引用信息

@article{momagraph2025, title={MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Models for Embodied Task Planning}, author={[Author Names]}, journal={[Conference/Journal Name]}, year={2025} }

搜集汇总

数据集介绍

构建方式

MomaGraph-Scenes数据集的构建融合了真实世界采集与现有公开资源的协同整合。研究团队在家庭环境中手动收集了大量数据，捕捉了自然条件下的多样化交互场景。为丰富数据多样性，数据集还纳入了OpenFunGraph和SceneFun3D两个公开基准中的样本，从中精心选取了描绘人-物交互的关键帧以生成多视角RGB观测。此外，通过在AI2-THOR仿真环境中从不同可达视点采集多视角观测，并辅以人工后过滤以排除不可交互元素，确保了数据集中于可操作对象并强调其功能相关性。最终，数据集包含了约1050个任务导向子图和6278张多视角RGB图像，覆盖超过350个不同的家庭场景和93种任务指令。

特点

MomaGraph-Scenes作为首个面向具身智能的大规模任务驱动场景图数据集，其核心特点在于统一建模空间与功能关系。数据集不仅标注了九种空间关系类型和六种功能关系类型，还显式包含了诸如把手、按钮等部件级交互节点，从而提供了比现有方法更细粒度、更紧凑且与任务高度对齐的结构化表示。与以往仅关注单一关系类型的数据集不同，该数据集要求模型同时推理物体的位置信息与使用方式，这更符合家庭环境中任务执行的实际需求。其标注在对象和部件层面均捕获了交互语义，覆盖了多样的场景布局、物体配置和交互类型，为具身推理的稳健学习和评估提供了坚实基础。

使用方法

MomaGraph-Scenes数据集主要用于训练和评估能够生成任务导向场景图的视觉-语言模型，并支持下游的具身任务规划。典型的使用遵循“先构图后规划”的范式：模型首先接收多视角观测图像和自然语言任务指令，预测出一个包含相关对象节点、空间关系边与功能关系边的任务特定场景图。这一结构化中间表示随后被用于条件化的高级任务规划，生成可执行的动作序列。数据集配套的MomaGraph-Bench评估套件系统化地衡量了场景图表示对六项核心推理能力的提升效果，包括高层任务规划到细粒度场景理解。此外，基于该数据集通过强化学习训练的MomaGraph-R1模型，可作为零样本任务规划器，在未见过的真实机器人实验中验证其泛化能力。

背景与挑战

背景概述

在具身智能领域，家庭环境中的移动操作机器人需要一种紧凑且语义丰富的场景表征，以同时支持导航与精细操作。传统场景图往往割裂空间与功能关系，或将场景视为静态快照，难以适应动态变化与任务导向的需求。为应对这一挑战，由加州大学伯克利分校、马里兰大学等机构的研究团队于2025年提出了MomaGraph-Scenes数据集。该数据集首次在家庭环境中构建了大规模、任务驱动的场景图，统一编码了对象间的空间与功能关系，并引入了部件级交互节点，为核心研究问题——如何为具身智能体提供动态、紧凑且任务对齐的结构化知识表征——提供了关键数据基础，对推动机器人场景理解与任务规划研究具有重要影响力。

当前挑战

MomaGraph-Scenes旨在解决具身任务规划中场景理解的挑战，其核心是构建能够同时支撑空间布局推理与对象功能交互的统一表征。具体挑战体现在两方面：其一，在领域问题层面，需克服现有方法仅关注单一关系类型（纯空间或纯功能）的局限性，并解决场景图对动态环境适应能力不足、缺乏任务相关性引导等问题；其二，在构建过程中，挑战在于如何大规模地联合标注空间与功能关系，并精细刻画部件级交互元素，同时确保多视角观测、执行动作与任务指令在复杂家庭场景中的对齐与一致性，这要求数据集具备高度的语义细节与任务泛化能力。

常用场景

经典使用场景

在具身智能领域，机器人需要在动态的家庭环境中同时完成导航与操作任务，这要求其对场景具备深刻的结构化理解。MomaGraph-Scenes数据集通过提供大规模、任务驱动的场景图标注，为训练和评估能够统一理解空间与功能关系的模型奠定了数据基础。其最经典的使用场景是支持‘先构图后规划’的范式，即模型首先根据多视角观测和自然语言指令生成一个任务特定的场景图，该图突出显示了相关物体、部件及其空间-功能关系，随后基于此结构化表示进行高层任务规划。这一流程显著提升了机器人对复杂室内环境的感知与推理能力。

解决学术问题

传统场景图研究常将空间关系与功能关系割裂处理，或将场景视为静态快照，忽略了物体状态变化与任务相关性，导致表征不完整且难以直接用于规划。MomaGraph-Scenes的构建直接回应了这些核心挑战。它首次在大规模数据集上统一标注了空间与功能关系，并引入了部件级交互节点和状态感知的动态更新机制。该数据集有效解决了如何为具身智能体构建紧凑、语义丰富且与任务高度对齐的场景表征这一关键学术问题，为开发能够进行细粒度场景理解和长视野任务规划的模型提供了至关重要的训练与评估基准。

衍生相关工作

围绕MomaGraph-Scenes数据集，衍生出了一系列重要的研究工作。其核心成果MomaGraph-R1模型，作为一个基于强化学习训练的70亿参数视觉-语言模型，率先实现了在‘先构图后规划’框架下的零样本任务规划能力。同时，配套发布的MomaGraph-Bench评估套件，系统化地定义了涵盖动作序列推理、空间关系理解、物体功能推理等六大核心能力的评测体系，为领域设立了新的标准。这些工作共同推动了统一空间-功能场景图表征的发展，并激励了后续研究探索如何将此类结构化中间表示更有效地与机器人底层控制相结合，以进一步提升在开放世界中的泛化与执行能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集