VSI-Bench

Name: VSI-Bench
Creator: 纽约大学、耶鲁大学、斯坦福大学
Published: 2024-12-19 02:59:54
License: 暂无描述

arXiv2024-12-19 更新2024-12-25 收录

下载链接：

https://vision-x-nyu.github.io/thinking-in-space.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

VSI-Bench是一个用于评估多模态大语言模型（MLLMs）视觉空间智能的新型视频基准数据集，由纽约大学、耶鲁大学和斯坦福大学联合创建。该数据集包含超过5000个问题-答案对，来源于288个真实的室内场景视频，涵盖住宅、办公室和工厂等多种环境。数据集的创建过程结合了现有的3D重建和理解数据集，如ScanNet、ScanNet++和ARKitScenes，并通过人工审核确保数据质量。VSI-Bench主要用于测试模型在空间感知、物体识别和路径规划等任务中的表现，旨在推动多模态模型在视觉空间智能领域的应用和发展。

VSI-Bench is a novel video benchmark dataset for evaluating the visual spatial intelligence of multimodal large language models (MLLMs), jointly developed by New York University, Yale University, and Stanford University. This dataset contains over 5,000 question-answer pairs, sourced from 288 real indoor scene videos covering diverse environments including residential spaces, offices, and factories. The construction of VSI-Bench integrates existing 3D reconstruction and understanding datasets such as ScanNet, ScanNet++, and ARKitScenes, and ensures data quality through manual review. VSI-Bench is primarily used to test model performance on tasks including spatial perception, object recognition, and path planning, aiming to promote the application and development of multimodal models in the field of visual spatial intelligence.

提供机构：

纽约大学、耶鲁大学、斯坦福大学

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

VSI-Bench的构建过程基于对多个现有3D室内场景重建数据集的整合与标准化。首先，研究人员从ScanNet、ScanNet++和ARKitScenes等数据集中选取了近290个真实室内场景视频，并通过统一元信息结构将这些数据集整合为一个标准化的格式。随后，利用这些视频和元信息，自动生成了超过5000个问答对，涵盖了配置、测量估计和时空推理等八类任务。为确保数据质量，研究人员采用了人工参与的迭代审核机制，通过多次审核和修正，最终确保了数据集的准确性和一致性。

使用方法

VSI-Bench的使用方法主要包括对多模态大语言模型（MLLMs）在视觉空间智能方面的评估。研究人员通过让模型观看视频并回答相关问题，测试其在空间感知、记忆和推理方面的能力。具体而言，模型需要从视频中提取空间信息，并回答关于物体位置、距离、尺寸等空间相关的问题。此外，研究人员还通过生成认知地图的方式，进一步探究模型对空间布局的内部表示能力。通过这些任务，VSI-Bench为评估和提升MLLMs的视觉空间智能提供了一个全面的基准。

背景与挑战

背景概述

VSI-Bench是由纽约大学、耶鲁大学和斯坦福大学的研究团队于2024年提出的一个基于视频的视觉空间智能基准测试。该数据集旨在评估多模态大语言模型（MLLMs）在观看环境视频后，是否能够构建准确的空间认知地图，并回答与空间相关的问题。VSI-Bench包含超过5,000个问答对，涵盖了近290个真实室内场景视频，涉及家庭、办公室和工厂等多种环境。该数据集的提出填补了视觉空间智能研究领域的空白，并为机器人、自动驾驶和增强现实等应用提供了重要的评估工具。

当前挑战

VSI-Bench面临的主要挑战包括：1）视觉空间推理能力的瓶颈。尽管MLLMs在语言理解和视觉感知方面表现出色，但在空间推理任务上仍远未达到人类水平，尤其是在全局空间关系的理解上。2）视频理解的复杂性。与静态图像不同，视频数据具有时序性，模型需要从连续的帧中提取并整合空间信息，这对模型的时空处理能力提出了更高要求。3）数据构建过程中的挑战。尽管VSI-Bench基于已有的高质量3D重建数据集，但在生成问答对时仍需克服标注错误、问题模糊性等问题，确保数据集的准确性和多样性。

常用场景

经典使用场景

VSI-Bench数据集主要用于评估多模态大语言模型（MLLMs）在视觉空间智能方面的表现。通过提供超过5,000个问答对和近290个真实室内场景视频，该数据集能够测试模型在感知、记忆和回忆空间信息方面的能力。经典的使用场景包括模型在观看视频后回答关于空间布局、物体位置和距离的问题，从而评估其视觉空间推理能力。

解决学术问题

VSI-Bench解决了多模态大语言模型在视觉空间智能领域的评估难题。通过引入视频数据，该数据集能够更真实地模拟人类对三维空间的理解，填补了现有基准在空间推理能力评估上的空白。它不仅揭示了MLLMs在空间推理上的瓶颈，还为未来的研究提供了明确的方向，如如何通过生成认知地图来增强模型的空间距离推理能力。

实际应用

VSI-Bench的实际应用场景广泛，尤其在机器人、自动驾驶和增强现实/虚拟现实（AR/VR）领域具有重要意义。例如，在机器人导航中，模型需要准确理解环境的空间布局，以便规划路径和避障。在自动驾驶中，车辆需要实时感知周围环境并做出决策，而VSI-Bench可以帮助评估模型在这方面的能力。此外，AR/VR应用中的虚拟环境构建和交互也依赖于对空间的精确理解。

数据集最近研究