VSI-Bench
收藏Thinking in Space 数据集概述
数据集简介
VSI-Bench 是一个用于评估多模态大语言模型(MLLMs)视觉空间智能的基准数据集。该数据集包含超过5,000个问题-答案对,源自288个来自公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes的验证集的自我中心视频。
数据集任务
VSI-Bench 包括八项任务,分为三类:
- 配置任务
- 测量估计任务
- 时空任务
数据集特点
- 数据来源:基于ScanNet、ScanNet++和ARKitScenes的验证集。
- 任务类型:包括配置、测量估计和时空任务。
- 数据规模:超过5,000个问题-答案对。
数据集使用
获取数据集
数据集托管在 HuggingFace,可以使用以下代码访问: python from datasets import load_dataset vsi_bench = load_dataset("nyu-visionx/VSI-Bench") print(vsi_bench)
安装与评估
-
安装环境: bash conda create --name vsibench python=3.10 conda activate vsibench git clone git@github.com:vision-x-nyu/thinking-in-space.git cd thinking_in_space git submodule update --init --recursive cd transformers && pip install -e . && cd .. pip install -e . pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales pip install deepspeed
-
运行评估: bash bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench
引用
如果使用该数据集,请引用以下论文:
@article{yang2024think, title={{Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces}}, author={Yang, Jihan and Yang, Shusheng and Gupta, Anjali and Han, Rilyn and Fei-Fei, Li and Xie, Saining}, year={2024}, journal={arXiv preprint arXiv:2412.14171}, }




