VSI-Bench

github2024-12-19 更新2024-12-20 收录

下载链接：

https://github.com/vision-x-nyu/thinking-in-space

下载链接

链接失效反馈

官方服务：

资源简介：

VSI-Bench是一个用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准。它包含超过5,000个问题-答案对，来源于288个从公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes的验证集中提取的以自我为中心的视频。VSI-Bench包括八项任务，分为配置、测量估计和时空三类。经过迭代优化，VSI-Bench为研究MLLMs与3D重建之间的联系提供了基础资源。

VSI-Bench is a benchmark designed to evaluate the visual-spatial intelligence of multimodal large language models (MLLMs). It comprises over 5,000 question-answer pairs derived from 288 egocentric videos extracted from the validation sets of public indoor 3D scene reconstruction datasets, namely ScanNet, ScanNet++, and ARKitScenes. VSI-Bench encompasses eight tasks, categorized into configuration, measurement estimation, and spatiotemporal domains. Through iterative optimization, VSI-Bench serves as a foundational resource for investigating the interplay between MLLMs and 3D reconstruction.

创建时间：

2024-12-15

原始信息汇总

Thinking in Space 数据集概述

数据集简介

VSI-Bench 是一个用于评估多模态大语言模型（MLLMs）视觉空间智能的基准数据集。该数据集包含超过5,000个问题-答案对，源自288个来自公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes的验证集的自我中心视频。

数据集任务

VSI-Bench 包括八项任务，分为三类：

配置任务
测量估计任务
时空任务

数据集特点

数据来源：基于ScanNet、ScanNet++和ARKitScenes的验证集。
任务类型：包括配置、测量估计和时空任务。
数据规模：超过5,000个问题-答案对。

数据集使用

获取数据集

数据集托管在 HuggingFace，可以使用以下代码访问： python from datasets import load_dataset vsi_bench = load_dataset("nyu-visionx/VSI-Bench") print(vsi_bench)

安装与评估

安装环境： bash conda create --name vsibench python=3.10 conda activate vsibench git clone git@github.com:vision-x-nyu/thinking-in-space.git cd thinking_in_space git submodule update --init --recursive cd transformers && pip install -e . && cd .. pip install -e . pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales pip install deepspeed
运行评估： bash bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

引用

如果使用该数据集，请引用以下论文：

@article{yang2024think, title={{Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces}}, author={Yang, Jihan and Yang, Shusheng and Gupta, Anjali and Han, Rilyn and Fei-Fei, Li and Xie, Saining}, year={2024}, journal={arXiv preprint arXiv:2412.14171}, }

搜集汇总

数据集介绍

构建方式

VSI-Bench数据集的构建基于288段来自ScanNet、ScanNet++和ARKitScenes等公开室内3D场景重建数据集的验证集中的第一人称视频。通过精心设计，该数据集包含了超过5,000个问题-答案对，分为八种任务类型，涵盖了配置性、测量估计和时空关系三大类别。这些任务经过迭代优化，确保了数据集的高质量和多样性，为研究多模态大语言模型（MLLMs）与3D重建之间的关联提供了坚实的基础。

使用方法

用户可以通过HuggingFace平台轻松访问VSI-Bench数据集，使用简单的Python代码即可加载数据。为了进行评估，用户需要安装相应的依赖包，并通过提供的评估脚本进行模型测试。数据集支持多种模型的零样本评估，用户可以根据需要选择不同的模型进行对比分析，从而深入理解MLLMs在视觉空间智能任务中的表现。

背景与挑战

背景概述

VSI-Bench数据集由纽约大学、耶鲁大学和斯坦福大学的研究人员共同创建，旨在评估多模态大语言模型（MLLMs）在视觉空间智能方面的表现。该数据集的核心研究问题聚焦于MLLMs是否能够通过观看环境视频，构建并回忆出空间布局，从而回答与空间相关的问题。VSI-Bench包含了超过5000个问答对，源自288个来自ScanNet、ScanNet++和ARKitScenes的室内3D场景重建数据集的验证集。该数据集的发布时间为2024年12月19日，其研究成果对理解MLLMs在空间认知方面的能力具有重要意义，并为未来的多模态模型研究提供了基础资源。

当前挑战

VSI-Bench数据集面临的挑战主要集中在两个方面。首先，构建过程中需要从多个公开的3D场景重建数据集中提取并整合高质量的视频数据，确保数据的多样性和代表性。其次，设计问答对时需要考虑多种任务类型，包括配置性、测量估计和时空任务，这要求数据集在任务设计上具有高度的复杂性和全面性。此外，评估MLLMs在空间智能方面的表现时，如何准确衡量模型的性能也是一个重要的挑战，尤其是在处理数值答案任务时，需要引入新的评估指标如Mean Relative Accuracy（MRA）。

常用场景

经典使用场景

VSI-Bench数据集的经典使用场景主要集中在评估多模态大语言模型（MLLMs）在视觉空间智能方面的表现。通过提供来自ScanNet、ScanNet++和ARKitScenes等公开室内3D场景重建数据集的288个第一人称视频，VSI-Bench构建了超过5,000个问答对，涵盖配置、测量估计和时空三大类任务。这些任务旨在测试MLLMs在观看视频后能否构建准确的认知地图，并据此回答关于空间布局的问题，从而揭示其在增强空间智能方面的潜力与局限。

解决学术问题

VSI-Bench数据集解决了多模态大语言模型在视觉空间智能领域的关键学术问题，即这些模型是否能够通过观看视频构建准确的认知地图，并据此回答关于空间布局的问题。通过提供多样化的任务类型和大规模的问答对，VSI-Bench为研究MLLMs与3D重建之间的联系提供了基础资源，推动了多模态学习与空间智能交叉领域的研究进展，具有重要的学术意义和影响。

实际应用

VSI-Bench数据集在实际应用中具有广泛的前景，特别是在增强现实（AR）、虚拟现实（VR）和智能家居等领域。通过评估MLLMs在空间感知和记忆方面的能力，VSI-Bench为开发更智能的AR导航系统、VR环境交互工具以及智能家居空间管理应用提供了理论基础和技术支持。这些应用场景不仅提升了用户体验，还为未来的智能空间技术发展奠定了坚实的基础。

数据集最近研究