SpatialEval

Hugging Face2024-11-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MilaWang/SpatialEval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置：tqa、vqa和vtqa。tqa配置主要用于文本问答任务，包含文本和答案相关的特征。vqa和vtqa配置用于视觉问答任务，除了文本和答案特征外，还包含图像特征。每个配置都有一个测试集，并提供了下载和数据集的大小信息。

创建时间：

2024-10-31

原始信息汇总

SpatialEval 数据集概述

数据集配置

tqa

特征:
- id: 字符串类型
- text: 字符串类型
- oracle_answer: 字符串类型
- oracle_option: 字符串类型
- oracle_full_answer: 字符串类型
分割:
- test: 4635个样本，4723238字节
下载大小: 804261字节
数据集大小: 4723238字节
数据文件路径: tqa/test-*

vqa

特征:
- id: 字符串类型
- text: 字符串类型
- image: 图像类型
- oracle_answer: 字符串类型
- oracle_option: 字符串类型
- oracle_full_answer: 字符串类型
分割:
- test: 4635个样本，733091578.0字节
下载大小: 712137895字节
数据集大小: 733091578.0字节
数据文件路径: vqa/test-*

vtqa

特征:
- id: 字符串类型
- text: 字符串类型
- image: 图像类型
- oracle_answer: 字符串类型
- oracle_option: 字符串类型
- oracle_full_answer: 字符串类型
分割:
- test: 4635个样本，736109315.0字节
下载大小: 712879771字节
数据集大小: 736109315.0字节
数据文件路径: vtqa/test-*

搜集汇总

数据集介绍

构建方式

SpatialEval数据集通过精心设计的任务和多样化的输入模态构建，旨在全面评估大语言模型（LLMs）和视觉语言模型（VLMs）的空间智能。数据集包含四个核心任务：空间关系理解、位置感知、物体计数和导航，每个任务支持文本、视觉以及视觉-文本三种输入模态。数据集的构建过程严格遵循科学实验设计，确保每个任务和模态的数据具有代表性和多样性，从而为模型评估提供坚实的基础。

特点

SpatialEval数据集的特点在于其多维度的评估框架和丰富的任务设计。数据集不仅涵盖了空间关系的理解，还深入探讨了位置感知、物体计数和导航等复杂任务。此外，数据集支持文本、视觉以及视觉-文本三种输入模态，使得评估更加全面和灵活。每个任务的数据均经过精心筛选和标注，确保了数据的准确性和可靠性，为研究者提供了高质量的评估基准。

使用方法

SpatialEval数据集的使用方法简便且灵活，用户可以通过Hugging Face平台轻松加载不同模态和任务的数据。数据集提供了TQA（文本）、VQA（视觉）和VTQA（视觉-文本）三种模态，用户可以根据需求选择相应的数据集进行加载。加载后，用户可以直接使用这些数据进行模型训练和评估，从而全面测试模型在空间智能方面的表现。数据集的使用文档详细，提供了丰富的示例代码和指导，帮助用户快速上手。

背景与挑战

背景概述

SpatialEval数据集由MilaWang团队于2024年推出，旨在全面评估大型语言模型（LLMs）和视觉语言模型（VLMs）在空间智能方面的表现。该数据集涵盖了空间关系、位置理解、物体计数和导航四个关键维度，通过四个基准任务（Spatial-Map、Maze-Nav、Spatial-Grid和Spatial-Real）对模型进行多模态测试。SpatialEval的创建标志着空间推理能力在人工智能领域的重要性日益凸显，为相关研究提供了标准化评估工具，推动了视觉与语言融合模型的发展。

当前挑战

SpatialEval数据集在解决空间推理问题的过程中面临多重挑战。首先，空间关系的复杂性和多样性使得模型难以准确捕捉物体之间的相对位置和方向。其次，导航任务中的环境复杂性要求模型具备高度的情境理解能力，尤其是在迷宫导航等场景中。此外，多模态数据的融合（如视觉与文本的结合）增加了数据处理的难度，模型需要在不同模态之间进行有效的信息整合。在数据构建过程中，如何确保数据的多样性和代表性，以及如何设计具有挑战性的任务，也是研究人员需要克服的关键问题。

常用场景

经典使用场景

SpatialEval数据集在评估大语言模型（LLMs）和视觉语言模型（VLMs）的空间智能方面具有重要应用。通过四个核心维度——空间关系、位置理解、物体计数和导航，该数据集为研究者提供了一个全面的基准测试平台。经典使用场景包括在文本、视觉以及视觉-文本多模态输入下，对模型在空间推理、导航能力等方面的表现进行系统性评估。

衍生相关工作

SpatialEval数据集的发布催生了一系列相关研究，特别是在多模态空间推理和导航任务领域。基于该数据集的研究工作不仅深入探讨了视觉语言模型在空间智能方面的潜力，还推动了新型评估方法的开发。这些研究为未来的空间智能技术发展奠定了坚实的理论基础，并拓展了其应用场景。

数据集最近研究