SpaRE

Name: SpaRE
Creator: 滑铁卢大学 Vector Institute
Published: 2025-04-29 19:18:38
License: 暂无描述

arXiv2025-04-29 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.20648v1

下载链接

链接失效反馈

官方服务：

资源简介：

SpaRE数据集是由滑铁卢大学Vector Institute的研究人员创建的，旨在增强视觉-语言模型的空间推理能力。数据集包含455,000个样本，包含3.4百万个问答对，由超详细图像描述生成。该数据集利用了DOCCI、PixMo-Cap和Localized Narratives等超详细图像描述数据集，通过LLM技术提取出与空间推理相关的问答对。数据集的创建过程涉及对超详细描述的过滤、提示构建、问答对生成以及质量保证等步骤。SpaRE数据集的应用领域包括机器人、自动驾驶、导航等领域，旨在解决视觉-语言模型在空间推理方面的不足，提高其在实际任务中的表现。

The SpaRE dataset was developed by researchers from the Vector Institute at the University of Waterloo, with the goal of enhancing the spatial reasoning capabilities of vision-language models. It contains 455,000 samples and a total of 3.4 million question-answer pairs generated from ultra-detailed image captions. This dataset leverages existing ultra-detailed image caption datasets including DOCCI, PixMo-Cap, and Localized Narratives, and extracts question-answer pairs related to spatial reasoning using large language model (LLM) technologies. The dataset creation workflow includes steps such as filtering ultra-detailed captions, prompt construction, question-answer pair generation, and quality assurance. The application fields of the SpaRE dataset cover robotics, autonomous driving, navigation and other domains, aiming to mitigate the shortcomings of vision-language models in spatial reasoning and improve their performance in practical tasks.

提供机构：

滑铁卢大学 Vector Institute

创建时间：

2025-04-29

搜集汇总

数据集介绍

构建方式

SpaRE数据集的构建采用了创新的合成数据生成方法，通过从Localized Narratives、DOCCI和PixMo-Cap等超详细图像描述中提取空间关系信息。具体流程包括三个关键步骤：首先利用Qwen2.5-3B-Instruct大型语言模型从描述文本中识别潜在的空间关系；随后设计结构化提示模板，引导模型生成专注于位置、方向和距离等空间要素的问答对；最后通过多层次的自动化质量验证，包括去重处理、答案一致性检查和空间关系验证等环节，确保生成数据的准确性和多样性。这种基于真实图像描述的数据合成策略，既保留了视觉场景的真实性，又有效解决了传统空间关系数据稀缺的问题。

特点

该数据集最显著的特点是规模庞大且覆盖全面，包含45.5万个样本和340万组问答对，远超现有空间推理数据集的体量。其空间关系类型呈现长尾分布，不仅涵盖常见的方位关系（如左右、上下），还包含大量稀缺关系（如朝向、环绕等），有效弥补了传统数据集中空间关系分布不均的缺陷。此外，所有数据均源自真实世界图像描述，确保了视觉场景的自然性和复杂性，避免了纯合成数据导致的领域偏移问题。数据集还特别注重问答对的多样性，每张图像平均生成7.4个不同角度的空间推理问题。

使用方法

SpaRE数据集主要应用于视觉语言模型的微调训练，可显著提升模型的空间推理能力。使用时建议采用两阶段训练策略：先在原始多模态数据上进行预训练，再使用本数据集进行针对性微调。训练过程中推荐采用余弦退火学习率调度和梯度裁剪等技术，以平衡空间推理能力与通用视觉语言能力的同步发展。评估时可选用VSR、What's Up等专业空间推理基准，同时配合MMMU等通用基准验证模型性能的均衡性。数据集的JSON结构化格式便于直接接入主流训练框架，其问题类型标注也可支持细粒度的课程学习设计。

背景与挑战

背景概述

SpaRE数据集由滑铁卢大学和Vector Institute的研究团队于2025年创建，旨在解决视觉语言模型(VLMs)在空间推理任务上的显著不足。该数据集基于Localized Narratives、DOCCI和PixMo-Cap等超详细图像描述数据集，通过大语言模型生成455k个样本，包含340万对空间推理问答对。研究团队发现现有VL数据集存在空间关系严重不平衡的问题——仅17%的常见关系（如'左'、'上'）占据了90%的样本，导致模型无法处理复杂多样的空间关系。SpaRE通过系统性增强空间关系表示，使VLMs在What's Up等基准测试上取得最高49%的性能提升，同时保持通用视觉语言任务的性能，为机器人、自动驾驶等需要精确空间理解的领域提供了重要技术支持。

当前挑战

SpaRE数据集面临的核心挑战体现在两个维度：领域问题层面，现有VLMs在理解物体间三维空间关系、处理参照系模糊性（如视角依赖的空间描述）以及复杂场景的空间层次结构时表现欠佳；数据构建层面，需要解决超详细描述中空间信息的精确提取、生成问答对的语义一致性保持，以及避免大语言模型在合成数据时产生的幻觉问题。研究团队通过多阶段质量验证流程（包括去重、答案一致性检查和空间关系验证）确保数据质量，但如何平衡空间关系的长尾分布与模型训练效率，以及消除合成数据与真实场景间的领域差距，仍是持续优化的重点方向。

常用场景

经典使用场景

在视觉语言模型（VLMs）的研究中，SpaRE数据集被广泛用于提升模型的空间推理能力。通过从超详细图像描述中生成合成问答对，SpaRE数据集为模型提供了丰富的空间关系训练样本，使其能够更好地理解和解释物体之间的空间关系。这一数据集在视觉问答（VQA）任务中表现尤为突出，特别是在需要精确空间理解的场景中。

实际应用

SpaRE数据集的实际应用场景包括机器人技术、自动驾驶和辅助技术等领域。在这些应用中，精确的空间理解是系统有效运行的关键。例如，自动驾驶汽车需要准确识别道路上的物体及其空间关系，而辅助技术则帮助视障人士通过空间描述进行导航。SpaRE数据集通过增强模型的空间推理能力，为这些应用提供了可靠的技术支持。

衍生相关工作

SpaRE数据集衍生了一系列相关研究工作，特别是在空间推理和视觉语言模型的交叉领域。例如，基于SpaRE的研究提出了新的数据生成方法，进一步优化了空间关系的表示和推理能力。此外，SpaRE的成功应用也激发了更多关于合成数据在视觉语言任务中的潜力探索，推动了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集