ScenePoint

Name: ScenePoint
Creator: 伦敦帝国学院
Published: 2025-11-21 01:22:51
License: 暂无描述

arXiv2025-11-21 更新2025-11-22 收录

下载链接：

https://matchlab-imperial.github.io/poma3d

下载链接

链接失效反馈

官方服务：

资源简介：

ScenePoint是由伦敦帝国学院构建的大规模点图数据集，专为三维视觉语言学习设计。该数据集整合了ScanNet、3RScan和ARKitScenes三大真实场景数据集，包含6,562个房间级场景及100万单视图点图，通过VGGT模型将二维图像转化为三维点图结构。数据集采用多视图采样与LLM生成描述技术，构建了点图-图像-文本三元组对齐数据，主要应用于三维场景理解、视觉问答和具身导航等领域，旨在解决三维表征学习中预训练先验稀缺和数据匮乏的核心挑战。

ScenePoint is a large-scale point graph dataset developed by Imperial College London specifically for 3D vision-language learning. This dataset integrates three real-world scene datasets, namely ScanNet, 3RScan, and ARKitScenes, containing 6,562 room-level scenes and 1 million single-view point graphs. It converts 2D images into 3D point graph structures via the VGGT model. By adopting multi-view sampling and LLM-generated description technologies, it constructs aligned triplet data of point graphs, images and texts. It is mainly applied in fields such as 3D scene understanding, visual question answering, and embodied navigation, aiming to address the core challenges of scarce pre-training priors and insufficient data in 3D representation learning.

提供机构：

伦敦帝国学院

创建时间：

2025-11-21

原始信息汇总

POMA-3D: The Point Map Way to 3D Scene Understanding

数据集概述

POMA-3D是首个基于多视角点图的自监督3D表示学习模型，通过点图方式实现3D场景理解。

核心特征

基于点图的自监督3D表示学习
通过视图到场景对齐策略将2D先验知识转移到3D
引入POMA-JEPA联合嵌入预测架构
仅使用几何输入（3D坐标）

数据集构成

ScenePoint点图数据集：包含6.5K房间级RGB-D场景和1M 2D图像场景
用于大规模POMA-3D预训练

应用任务

3D视觉问答（ScanQA、SQA3D、Hypo3D）
具身导航（MSNN）
场景检索（ScanRefer、Nr3D、Sr3D）
具身定位

性能表现

3D VQA与具身导航

POMA-3D specialist在ScanQA上EM@1达22.3%，EM@10达52.3%
在SQA3D上EM@1达51.1%，EM@10达91.2%
在MSNN四向导航中达40.4%，八向导航中达21.2%

场景检索

在ScanRefer上R@1-1达9.31%，R@1-5达27.9%
在Nr3D上R@1-1达8.10%，R@1-5达15.7%
在Sr3D上R@1-1达3.89%，R@1-5达14.0%

技术优势

解决3D表示学习中预训练先验稀缺和数据有限的问题
在专业模型和通用模型中都表现出强大的骨干网络能力
在多个3D理解任务中实现仅使用几何输入的优异性能

搜集汇总

数据集介绍

构建方式

在三维场景理解领域，构建高质量数据集是推动模型泛化能力的关键。ScenePoint数据集通过整合ScanNet、3RScan和ARKitScenes等真实室内RGB-D场景数据，采用多视角采样策略生成结构化点地图。具体流程包括从每个场景视频中选取32个覆盖空间最大范围的帧，利用相机内外参将深度图转换为保留全局几何结构的点地图。此外，数据集还从ConceptualCaptions图像库中衍生出百万级单视角点地图，通过VGGT模型预测深度与位姿参数，构建了涵盖房间级与图像级场景的多层次数据体系。

特点

ScenePoint的独特价值在于其融合几何精确性与语义丰富性的双重特性。点地图以二维网格形式编码三维坐标，既保持点云的几何完整性，又兼容二维基础模型的输入范式。数据集包含6,562个真实室内场景与百万级单视角样本，所有点地图均配有多粒度语言标注：房间级场景通过InternVL模型生成视角描述，并融合SceneVerse的场景级文本；单视角样本直接沿用原始图像描述。这种设计使数据兼具空间连贯性与语义多样性，为三维视觉-语言对齐提供了理想载体。

使用方法

ScenePoint作为POMA-3D预训练的核心支撑，其应用遵循分层递进范式。在预训练阶段，模型通过视角-场景对齐目标学习点地图与文本的跨模态表示，同时利用POMA-JEPA架构增强多视角特征一致性。下游任务适配时，预训练的点地图编码器可直接作为三维问答、具身导航等任务的骨干网络，其输出的几何感知特征支持零样本场景检索与定位。对于通用型模型，点地图特征可通过LoRA微调与大型语言模型集成，实现从纯几何输入到复杂三维推理的端到端迁移。

背景与挑战

背景概述

ScenePoint数据集由伦敦帝国理工学院的研究团队于2025年提出，旨在解决三维场景理解中数据稀缺与表示学习的核心问题。该数据集整合了ScanNet、3RScan和ARKitScenes等真实室内场景数据，并创新性地从ConceptualCaptions图像数据中生成单视角点地图，构建了包含6500个房间级场景和100万单视角场景的大规模点地图语料库。通过将三维几何信息编码为结构化二维网格，ScenePoint为POMA-3D自监督预训练提供了重要支撑，显著推动了三维视觉语言学习领域的发展。

当前挑战

在领域问题层面，ScenePoint致力于克服三维场景理解中多模态对齐与几何一致性建模的挑战，其构建过程面临双重困难：一是真实三维数据采集成本高昂，需通过前馈式三维重建模型从二维图像生成伪点地图以扩展数据规模；二是点地图在世界坐标系中具有顺序无关性，需设计置换不变的嵌入预测机制来保证多视角特征一致性，这通过POMA-JEPA架构中的Chamfer距离损失函数实现。

常用场景

经典使用场景

在三维场景理解领域，ScenePoint数据集通过点图这一创新模态，为多视角几何表征学习提供了关键支撑。其经典应用体现在将二维基础模型的语义先验与三维空间结构对齐，使得模型能够仅凭几何坐标就能完成场景检索、问答等复杂任务，显著提升了三维视觉语言学习的泛化能力。

解决学术问题

该数据集有效缓解了三维表征学习中预训练先验稀缺与数据规模受限的核心难题。通过构建包含6500个房间级场景和百万级单视图点图的大规模语料，突破了传统三维数据采集成本高昂的瓶颈，为自监督三维模型POMA-3D提供了充分的训练基础，推动了三模态（点图-图像-文本）对齐理论的发展。

衍生相关工作

基于ScenePoint衍生的POMA-3D框架催生了系列创新研究，包括采用联合嵌入预测架构的POMA-JEPA方法，以及面向具身定位的新任务范式。这些工作进一步推动了三维视觉语言学习与二维基础模型的深度融合，为通用三维理解模型的构建开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集