CoSpace
收藏arXiv2025-03-18 更新2025-03-20 收录
下载链接:
https://thunlp-mt.github.io/CoSpace/
下载链接
链接失效反馈官方服务:
资源简介:
CoSpace是由清华大学团队创建的多图像视觉理解基准数据集,旨在评估视觉语言模型在连续空间感知方面的能力。该数据集包含2918张图像和1626个问答对,涵盖了七种类型的任务。数据集通过提供从静态视点拍摄的一系列空间连续的图像来模拟人类对环境的感知,图像之间存在空间重叠,以便模型可以更好地理解图像之间的关联。CoSpace的应用领域主要集中在视觉语言模型的空间理解能力评估,目的是解决模型在处理真实世界场景时遇到的空间信息整合问题。
CoSpace is a multi-image visual understanding benchmark dataset developed by the Tsinghua University team, which is designed to evaluate the continuous spatial perception capabilities of vision-language models. It contains 2918 images and 1626 question-answer pairs, covering seven types of tasks. To simulate human environmental perception, the dataset provides a series of spatially continuous images captured from static viewpoints, with spatial overlaps between the images, enabling models to better comprehend the associative correlations among these images. The primary application scope of CoSpace focuses on the evaluation of spatial understanding capabilities for vision-language models, with the core goal of solving the spatial information integration problems encountered by models when processing real-world scenes.
提供机构:
清华大学计算机科学与技术系, 清华大学人工智能研究院, 北京科技大学计算机与通信工程学院, 上海人工智能实验室, 江苏省语言能力协同创新中心
创建时间:
2025-03-18
搜集汇总
数据集介绍

构建方式
CoSpace数据集的构建采用了自动收集与人工筛选相结合的方式。首先,通过Baidu Map Panorama API和HM3D数据集自动收集同一场景下不同方向的图像,确保图像在静态视角下具有空间连续性。随后,人工筛选这些图像,确保其符合任务需求并包含足够的视觉信息。接着,利用GPT-4o生成问题,并通过人工标注提供答案,最终形成包含2,918张图像和1,626个问答对的数据集。
使用方法
CoSpace数据集的使用方法主要围绕评估视觉-语言模型在连续空间感知任务中的表现展开。用户可以通过提供多个连续图像作为输入,要求模型回答与空间感知相关的问题,如方向识别、物体计数、旋转角度判断等。数据集还提供了详细的提示模板和任务说明,帮助用户更好地设计实验和评估模型。通过这种方式,CoSpace能够有效评估模型在真实场景中的空间推理和决策能力。
背景与挑战
背景概述
CoSpace数据集由清华大学人工智能研究院等机构的研究人员于2025年提出,旨在评估视觉-语言模型(VLMs)在连续空间感知能力上的表现。该数据集包含2,918张图像和1,626个问答对,涵盖了七种任务类型,主要研究问题是如何通过静态视角下拍摄的多张连续图像,重建和理解整个空间。CoSpace的提出填补了现有基准测试在连续空间感知能力评估上的空白,推动了VLMs在真实场景中的应用,尤其是在导航、规划和空间推理等任务中。
当前挑战
CoSpace数据集面临的挑战主要体现在两个方面。首先,连续空间感知任务要求模型能够识别相邻图像之间的空间关系,并重建整个场景,这对模型的跨图像理解能力提出了较高要求。其次,数据集的构建过程中,研究人员需要确保图像序列的连续性和空间一致性,同时生成高质量的问答对,这对数据收集和标注的精度提出了挑战。此外,现有模型在旋转角度推理等任务上表现不佳,表明模型在处理复杂空间信息时仍存在显著缺陷。
常用场景
经典使用场景
CoSpace数据集主要用于评估视觉-语言模型(VLMs)在连续空间感知能力上的表现。通过提供一系列从静态视角拍摄的连续图像,模型需要理解这些图像之间的空间关系,并回答与空间感知相关的问题。这种任务设计模拟了人类在现实环境中通过连续视角感知空间的能力,要求模型能够识别相邻图像中的重叠区域,并重建整个场景。
解决学术问题
CoSpace数据集解决了当前视觉-语言模型在连续空间感知能力上的不足。现有的基准测试通常关注离散图像或不同视角下的图像,而忽略了从静态视角拍摄的连续图像之间的空间关系。CoSpace通过设计多种任务,如方向识别、旋转角度感知、物体计数和导航决策,填补了这一研究空白,推动了视觉-语言模型在空间理解能力上的进一步发展。
实际应用
CoSpace数据集的实际应用场景广泛,尤其是在需要空间感知的领域,如自动驾驶、机器人导航和增强现实。在这些应用中,模型需要理解周围环境的连续空间信息,以便做出准确的决策。例如,在自动驾驶中,车辆需要通过连续的视觉输入感知道路和障碍物的位置,从而规划安全的行驶路径。CoSpace通过模拟这些现实场景,为模型的实际应用提供了有效的测试平台。
数据集最近研究
最新研究方向
近年来,视觉-语言模型(VLMs)在视觉理解任务中取得了显著进展,尤其是在多图像理解和空间推理方面。然而,现有基准测试通常关注空间无关的图像或从不同视角捕获的离散图像,忽视了从静态视角捕获的连续空间感知能力。CoSpace数据集的提出填补了这一空白,旨在评估VLMs在连续空间感知方面的能力。该数据集包含2,918张图像和1,626个问答对,涵盖七种任务类型,涉及方向感知、旋转感知、计数和规划等核心能力。通过对19个专有和开源VLMs的评估,研究发现大多数模型在连续空间感知能力上存在明显不足,尤其是开源模型在响应一致性上与专有模型存在显著差距。CoSpace的推出为VLMs在真实世界任务中的有效应用提供了新的研究方向,特别是在导航、规划和具身任务中,连续空间感知能力的提升将至关重要。
相关研究论文
- 1CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models清华大学计算机科学与技术系, 清华大学人工智能研究院, 北京科技大学计算机与通信工程学院, 上海人工智能实验室, 江苏省语言能力协同创新中心 · 2025年
以上内容由遇见数据集搜集并总结生成



