ScanAlign|3D场景理解数据集|视觉语言模型数据集

arXiv2025-01-03 更新2025-01-06 收录

下载链接：

https://gpt4scene.github.io

下载链接

链接失效反馈

资源简介：

ScanAlign数据集由上海人工智能实验室和香港大学的研究团队创建，旨在通过视频帧、BEV图像和文本注释来增强视觉语言模型对3D场景的理解。该数据集包含165,000条文本注释，数据来源于室内场景的视频输入，并通过3D重建技术生成BEV图像。数据集的创建过程包括从视频中提取帧、生成BEV图像，并在图像和视频帧中添加空间-时间对象标记（STO标记）。该数据集主要用于3D场景理解任务，如3D问答、密集描述和视觉定位，旨在解决视觉语言模型在3D空间理解中的局限性问题。

提供机构：

香港大学, 上海人工智能实验室

创建时间：

2025-01-03

AI搜集汇总

数据集介绍

构建方式

ScanAlign数据集的构建基于ScanNet数据集，通过从视频中提取帧并生成鸟瞰图（BEV）图像，结合空间-时间对象标记（STO标记）和文本注释。首先，从视频中均匀采样帧，并通过3D重建技术生成点云和BEV图像。接着，使用3D实例分割技术对点云进行分割，并将分割结果投影到视频帧和BEV图像上，形成STO标记。最后，结合视频帧、BEV图像和STO标记，生成包含165K文本注释的数据集。

特点

ScanAlign数据集的特点在于其多模态输入，包括视频帧、BEV图像和STO标记，能够提供全局和局部的空间信息。STO标记确保了视频帧与BEV图像之间的空间和时间一致性，帮助模型更好地理解3D场景中的对象关系。此外，数据集的文本注释多样化，涵盖了3D问答、密集描述和视觉定位等任务，为模型提供了丰富的训练数据。

使用方法

ScanAlign数据集主要用于训练和微调视觉语言模型（VLMs），以提升其在3D场景理解任务中的表现。在训练过程中，模型输入包括视频帧、BEV图像和STO标记，输出为文本注释。在推理阶段，模型可以根据视频帧和BEV图像进行3D问答、密集描述和视觉定位等任务。通过微调，模型能够在仅输入原始视频帧的情况下，依然表现出色，展示了其内在的3D场景理解能力。

背景与挑战

背景概述

ScanAlign数据集由香港大学和上海人工智能实验室的研究团队于2025年提出，旨在通过纯视觉输入增强视觉-语言模型（VLMs）对三维场景的理解能力。该数据集的核心研究问题是如何通过视频输入实现三维场景的全局-局部关系建模，从而提升模型在三维问答、密集描述和视觉定位等任务中的表现。ScanAlign的构建基于ScanNet数据集，包含165K条文本注释，结合了视频帧、鸟瞰图（BEV）和时空对象标记（STO markers），为三维场景理解提供了丰富的多模态数据支持。该数据集的提出对推动具身智能和三维视觉-语言模型的发展具有重要意义。

当前挑战

ScanAlign数据集面临的挑战主要包括两个方面。首先，在领域问题方面，现有的视觉-语言模型在三维空间理解上存在局限性，尤其是在全局-局部信息对齐和三维空间关系的建模上表现不足。ScanAlign通过引入BEV图像和STO标记来解决这一问题，但仍需克服模型在复杂场景中的泛化能力不足的挑战。其次，在数据集构建过程中，如何从视频中准确地重建三维场景并生成BEV图像，以及如何确保STO标记在时空上的一致性，都是技术上的难点。此外，数据集的多样性和标注质量也对模型的训练效果产生了直接影响。

常用场景

经典使用场景

ScanAlign数据集在3D场景理解任务中具有广泛的应用，尤其是在基于视觉语言模型（VLMs）的3D问答、密集描述和视觉定位任务中表现突出。通过结合视频帧、鸟瞰图（BEV）和空间-时间对象标记（STO标记），ScanAlign能够帮助模型更好地理解室内场景的全局布局和局部细节。该数据集的使用场景主要集中在智能家居、工业检测和机器人导航等领域，为模型提供了丰富的视觉和文本标注数据，使其能够在复杂的3D环境中进行精确的推理和交互。

解决学术问题

ScanAlign数据集解决了3D场景理解中的多个关键学术问题。首先，它通过提供全局的BEV图像和局部的视频帧，弥补了传统视觉语言模型在全局-局部信息对齐上的不足。其次，STO标记的使用使得模型能够在时空维度上保持对象的一致性，从而提升了3D问答、密集描述和视觉定位任务的准确性。此外，ScanAlign还通过大规模的文本标注数据，显著提升了模型在3D场景理解任务中的泛化能力，为未来的3D视觉语言研究提供了坚实的基础。

衍生相关工作

ScanAlign数据集衍生了许多经典的研究工作。例如，基于该数据集的GPT4Scene框架在3D视觉语言任务中取得了显著的进展，尤其是在3D问答和密集描述任务中表现优异。此外，ScanAlign还推动了3D点云语言模型（3D Point LLMs）的发展，如Chat-Scene和Robin3D等模型，这些模型通过结合ScanAlign的标注数据，进一步提升了3D场景理解的性能。ScanAlign的出现也为未来的3D视觉语言研究提供了新的方向，推动了该领域的快速发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集