GEM-4M

Name: GEM-4M
Creator: 清华大学; 腾讯·混元
Published: 2026-05-27 22:39:42
License: 暂无描述

arXiv2026-05-27 更新2026-05-29 收录

下载链接：

https://zhaorw02.github.io/GEM/

下载链接

链接失效反馈

官方服务：

资源简介：

GEM-4M是由清华大学与腾讯混元团队联合构建的大规模高质量具身智能预训练数据集，旨在为生成式监督的视觉语言模型提供深度感知与物理推理支持。该数据集包含约400万条问答对，数据来源融合了具身任务中的基础定位、时空规划与物理推理等多模态信息，并配以高质量的深度监督信号。其构建过程通过精心设计的数据引擎整合了多样化的具身任务数据，以强化模型对场景几何结构与物理约束的理解。该数据集主要应用于提升具身视觉语言模型在真实物理环境中的语义理解与操作能力，旨在解决传统模型在高级语义推理与低级空间物理知识之间的脱节问题，推动机器人自主任务执行的发展。

GEM-4M is a large-scale high-quality embodied intelligence pre-training dataset jointly constructed by Tsinghua University and Tencent Hunyuan Team. It is designed to provide deep perception and physical reasoning support for generative-supervised visual-language models. This dataset contains approximately 4 million question-answer pairs, with data sources integrating multimodal information including basic localization, spatio-temporal planning and physical reasoning from embodied tasks, and is paired with high-quality deep supervision signals. During the construction process, diverse embodied task data are integrated through a meticulously designed data engine, so as to enhance the model's understanding of scene geometric structures and physical constraints. This dataset is primarily applied to improve the semantic understanding and manipulation capabilities of embodied visual-language models in real physical environments. It aims to address the gap between advanced semantic reasoning and low-level spatial physical knowledge in traditional models, and promote the development of autonomous task execution for robots.

提供机构：

清华大学; 腾讯·混元

创建时间：

2026-05-27

原始信息汇总

数据集概述：GEM-4M

数据集名称：GEM-4M（Generative-supervised Embodied vision-language Model - 4 Million）

发布机构：清华大学、腾讯混元

核心定位：一个大规模、高质量的数据集，专为生成式监督的具身视觉语言模型（VLM）设计，旨在弥合高层语义理解与低层空间物理知识之间的鸿沟。

数据规模与组成：

规模：包含约400万（4M）数据样本。
内容类型：混合了基础（Grounding）、推理（Reasoning） 与规划（Planning） 三类数据。
监督信号：每份数据均配套高质量深度图（Depth supervision）。

数据用途：该数据集用于在VLM预训练阶段引入深度图生成任务作为辅助目标。通过联合训练语言建模与深度生成目标，增强模型在具身智能任务中的物理 grounding 能力和语义推理能力。基于GEM-4M训练的GEM-VLA模型在LIBERO等基准测试和真实机器人操作任务中取得了领先表现。

搜集汇总

数据集介绍

构建方式

GEM-4M数据集的构建围绕三个核心维度展开：具身接地数据、物理与空间推理数据以及时空规划数据。在具身接地方面，从PACO-LVIS、RoboPoint等公开数据集中收集了100万对高质量问答，并利用SAM3从开源机器人动作数据中额外生成了约10万个点与边界框标注。物理与空间推理数据融合了MindCube、VSI-590K等开源空间数据集，并基于ScanNet等3D场景数据手动标注了10万个空间理解样本。时空规划数据则从RoboVQA等数据集中整合了100万对问答，并从机器人视频中提取子任务与轨迹信息，构建了约5万个规划样本。

特点

GEM-4M数据集的核心特点在于其全面覆盖了具身智能所需的低层物理知识与高层语义理解。该数据集不仅包含丰富的接地任务数据以增强物体识别与定位能力，还专门设计了物理与空间推理任务来培养模型对距离、方向等空间关系的感知。此外，时空规划数据使模型能够理解子任务序列并预测物体运动轨迹。尤为重要的是，所有数据均配有高质量的深度监督信息，使得模型在预训练阶段即可学习场景中的细粒度几何结构，从而弥合语义理解与物理执行之间的鸿沟。

使用方法

GEM-4M专为生成式监督的具身视觉语言模型预训练而设计。用户可将其与深度生成任务结合，通过渐进式训练策略使用：首先初始化连接器以对齐特征空间，接着预热深度生成头使其适应条件特征，最后联合优化视觉语言骨干、连接器与深度生成头。该数据集可直接用于监督微调，提升模型在空间理解、接地推理和任务规划等基准上的表现。此外，预训练后的模型可扩展为视觉-语言-动作模型，在仿真环境和真实机器人操作任务中实现卓越的执行能力。

背景与挑战

背景概述

GEM-4M是由清华大学与腾讯混元团队于2025年联合构建的大规模具身智能预训练数据集，旨在解决现有视觉-语言模型在高层次语义理解与低层次空间物理知识之间的鸿沟。该数据集围绕物理接地、空间推理与时空规划三大核心任务，汇集了超过400万条高质量问答对，涵盖开放词汇物体检测、深度感知、轨迹预测等关键能力。GEM-4M的发布为具身视觉-语言模型提供了统一的物理知识监督信号，显著推动了空间感知与操纵决策的融合，成为具身智能领域基础模型训练的重要基准资源。

当前挑战

GEM-4M所应对的核心挑战在于，传统文本引导的预训练范式侧重于高阶语义推理，却忽视了具身环境中至关重要的空间几何与物理交互信息，导致模型在真实操纵任务中泛化能力不足。在数据集构建过程中，团队面临多重困难：如何从公开机器人动作数据中高效提取并标注物体掩膜、边界框与深度图；如何将来自不同来源的异构数据统一为标准化的问答格式；以及如何设计涵盖子任务规划与轨迹预测的时空推理样本。此外，深度图的伪标签生成依赖于外部模型，其质量与一致性也对数据集的可靠性提出了严峻考验。

常用场景

经典使用场景

在具身智能研究领域，GEM-4M数据集被广泛用于视觉-语言模型（VLM）的预训练与微调，尤其侧重于增强模型对物理世界空间结构的理解。该数据集通过融合接地、推理与规划任务的高质量问答对，并辅以深度图监督信息，为模型提供了从语义理解到物理操作的多层次学习素材。研究者常利用GEM-4M来训练能够同时把握高层语义指令与低层几何细节的具身模型，使其在复杂环境中的空间感知与任务推理能力得到显著提升。

衍生相关工作

GEM-4M数据集催生了多项具有影响力的后续研究工作。其深度生成监督策略启发了DepthVLA、SpatialVLA等模型，这些工作进一步探索了将空间先验知识注入VLA框架的有效途径。此外，GEM的渐进式训练范式也为DreamVLA、TraceVLA等方法提供了参考，促使研究者更加关注多阶段优化与模态融合间的协同效应。在具身推理方面，GEM-4M中涵盖的时空规划数据为RoboVQA、RefSpatial等基准的改进注入了新动力，推动了具身智能体从感知到行动的全链路发展。

数据集最近研究