GeoGen
收藏arXiv2025-12-02 更新2025-12-03 收录
下载链接:
https://github.com/SpatialInt/MILO
下载链接
链接失效反馈官方服务:
资源简介:
GeoGen是由穆罕默德·本·扎耶德人工智能大学等机构构建的大规模几何感知生成数据集,旨在通过隐式空间世界建模增强多模态大语言模型的三维空间推理能力。该数据集包含2,241个视频和267,827个标注的三元组,数据来源于扫描的三维场景资产和互联网视频,确保了内容的广泛覆盖性与多样性。其构建过程涉及采集带有几何标注的视频数据,并生成在几何变换(如新视角合成和轨迹生成)下的交互结果。该数据集主要应用于三维视觉与机器人领域,旨在解决当前模型在空间语义与视觉感知间缺乏跨模态 grounding 的问题,通过提供几何感知的视觉反馈监督,促进模型对三维结构的直观理解与推理。
GeoGen is a large-scale geometric-aware generative dataset constructed by institutions including Mohamed bin Zayed University of Artificial Intelligence and other relevant organizations, aiming to enhance the 3D spatial reasoning capabilities of multimodal large language models through implicit spatial world modeling. This dataset contains 2,241 videos and 267,827 annotated triplets, with data sourced from scanned 3D scene assets and internet videos, ensuring broad coverage and diversity of the content. Its construction workflow includes collecting video data paired with geometric annotations, and generating interactive results under geometric transformations such as novel view synthesis and trajectory generation. This dataset is primarily utilized in the fields of 3D vision and robotics, targeting the issue that current models lack cross-modal grounding between spatial semantics and visual perception. By providing geometric-aware visual feedback supervision, it promotes the model's intuitive understanding and reasoning of 3D structures.
提供机构:
穆罕默德·本·扎耶德人工智能大学、中山大学、北京大学、时空人工智能
创建时间:
2025-12-02
搜集汇总
数据集介绍

构建方式
在三维空间理解领域,数据集的构建方式直接影响模型对几何变换的感知能力。GeoGen数据集通过整合扫描三维资产与互联网视频两种来源,构建了大规模几何感知生成数据。具体而言,数据集从ScanNet、ScanNet++等公开数据集获取带有精确相机位姿和语义标注的RGB-D视频,同时利用RoomTour3D数据集补充具有相机轨迹和深度信息的网络视频。标注过程设计了新颖视图合成与轨迹生成两大任务:前者基于相机位姿关系生成方向性指令对应的视频帧序列;后者将视频帧构建为相机校准图,通过A*算法计算起点到终点的最短路径作为轨迹指令。最终借助大语言模型对指令进行多样化改写,形成约2,241个视频和267,827个观察-动作-结果三元组。
特点
该数据集的核心特点在于其几何感知生成特性与多模态任务设计。数据集不仅提供视觉观察帧,还包含几何变换指令及对应的结果帧,形成了完整的交互闭环。这种结构使模型能够学习空间变换在视觉域的具体表现,从而建立符号推理与感知经验的隐式关联。数据覆盖室内场景的多样化几何变换,包括相机移动、视角旋转等操作,同时通过轨迹生成任务要求模型理解场景的整体几何结构。数据集规模庞大且来源多样,既包含精确标注的扫描数据,也涵盖真实世界的互联网视频,确保了模型训练的泛化能力与场景适应性。
使用方法
在模型训练中,GeoGen数据集主要用于视觉生成调优阶段,以增强多模态大语言模型的空间世界建模能力。使用方法遵循两阶段训练范式:首先利用数据集的观察-动作-结果三元组进行视觉生成训练,使模型学习根据几何变换指令生成对应的视觉反馈;随后进行传统的语言描述微调。具体实施时,将视频帧与相对位置编码输入多模态大语言模型,其隐藏视觉表征作为条件引导视频扩散模型重建目标序列。这种训练方式使模型通过视觉反馈监督隐式建立空间语义与视觉感知的跨模态关联,从而获得类似人类的空间想象能力,显著提升在三维场景理解、空间指代等任务上的性能表现。
背景与挑战
背景概述
GeoGen数据集是2025年由MBZUAI、中山大学、北京大学及Spatialtemporal AI等机构的研究团队共同构建的大规模几何感知生成数据集,旨在解决多模态大语言模型在三维空间推理中存在的视觉文盲问题。该数据集的核心研究问题是通过隐式空间世界建模范式,将符号化空间推理与视觉感知进行跨模态对齐,从而增强模型对三维几何变换的理解能力。其构建基于扫描的三维场景资产和互联网视频,包含约2,241个视频和267,827个观察-行动-结果三元组,为MILO等模型的视觉生成后训练提供了关键支持,显著推动了自动驾驶、具身导航等领域的空间智能发展。
当前挑战
GeoGen数据集致力于解决多模态大语言模型在三维空间理解与推理任务中面临的视觉文盲挑战,即模型仅通过文本符号学习空间概念,缺乏与视觉表现的关联,导致在指代理解、场景描述等任务中注意力机制失效。在构建过程中,研究团队需克服高质量三维标注数据获取成本高昂、互联网视频几何信息缺失等难题,通过融合扫描三维资产与网络视频,并设计基于相机校准图的轨迹生成方法,确保数据覆盖的广泛性与标注的几何一致性。此外,如何将相对相机位姿变换编码为坐标无关的位置表示,以提升模型跨数据集泛化能力,亦是数据集构建的核心挑战之一。
常用场景
经典使用场景
在三维视觉与语言模型的研究领域中,GeoGen数据集被广泛应用于训练模型进行隐式空间世界建模。该数据集通过提供大量观察-动作-结果三元组,支持模型学习在几何变换指令下生成相应的视觉反馈。例如,在给定相机移动指令后,模型需要预测扩展视野以包含床、床头柜、办公桌等物体的新场景,从而模拟人类的空间想象能力。这种基于视频输入和相对位姿编码的训练范式,使得多模态大语言模型能够将符号推理与感知体验隐式地结合起来,显著提升了其在三维空间理解任务上的表现。
实际应用
GeoGen数据集的实际应用场景涵盖自动驾驶、具身导航和机器人操作等多个领域。在自动驾驶中,模型可利用该数据集学习对复杂道路环境的几何理解,预测车辆运动后的场景变化。在具身导航任务中,智能体能够通过轨迹生成指令规划从起点到终点的最优路径,例如在室内环境中从垃圾桶导航至厨房柜台。机器人操作则受益于模型对物体相对位置和方向的精确推理,从而执行抓取、放置等需要空间感知的任务。这些应用均依赖于数据集提供的丰富几何变换标注,实现了从虚拟仿真到现实世界的平滑过渡。
衍生相关工作
基于GeoGen数据集,研究者们衍生出了一系列经典工作,进一步拓展了隐式空间世界建模的边界。例如,MILO框架通过整合视觉生成器与相对位置编码,在多个基线模型上实现了性能提升,成为该领域的代表性范式。相关工作如Ross3D探索了掩码视觉预测与鸟瞰图重建任务,而VG-LLM和RoboRefer则分别利用几何先验和深度对齐增强了模型的空间指代能力。这些工作不仅在ScanRefer、Multi3DRefer等基准测试中取得了显著进展,还为后续研究提供了可扩展的数据集构建方法和训练策略,推动了三维视觉与语言模型的协同发展。
以上内容由遇见数据集搜集并总结生成



