基于街景图像的合成视觉问答数据集
收藏arXiv2025-08-29 更新2025-09-03 收录
下载链接:
https://github.com/eeyore22/urban_scope
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由韩国科学技术院的研究人员构建,包含来自五个全球城市的50,000张街景图像。通过对这些图像进行语义分割、深度估计和目标检测,研究人员提取了场景属性,并基于这些属性生成了大量问答对。数据集分为感知问答和组合问答两种类型,并进一步将问答对的答案转换为“思维链”形式,以便更好地评估模型的推理过程。该数据集旨在帮助视觉-语言模型更好地理解和解释城市街景,并推动相关领域的研究和应用。
This dataset was constructed by researchers from the Korea Advanced Institute of Science and Technology (KAIST). It comprises 50,000 street-view images collected from five global cities. Using semantic segmentation, depth estimation and object detection on these images, the researchers extracted scene attributes and generated a large number of question-answer (QA) pairs based on these attributes. The dataset is divided into two categories of QA pairs: perceptual QA and compositional QA. Furthermore, the answers to these QA pairs are converted into the "chain-of-thought (CoT)" format to facilitate better evaluation of model reasoning processes. This dataset is designed to help vision-language models better understand and interpret urban street scenes, and to advance research and applications in relevant fields.
提供机构:
韩国科学技术院
创建时间:
2025-08-29
搜集汇总
数据集介绍

构建方式
该数据集通过系统化流程构建,首先从全球五个城市收集五万张街景图像,并利用预训练模型提取语义分割、目标检测和深度估计等多维度场景属性。随后基于结构化元数据生成感知性与组合性问答对,涵盖比例判断、空间布局及反事实推理等多种任务类型。最终通过大语言模型将简答转化为链式思维推理答案,形成具有逐步推理监督的合成视觉问答数据。
特点
数据集的核心特点在于其多模态元数据支撑的细粒度空间推理能力,覆盖城市街景中的绿化比例、天空视野因子、建筑密度等关键视觉指标。其问题设计兼具感知层面的直接判断与组合层面的逻辑推理,尤其强调否定句与反事实场景的挑战性理解。链式思维答案的引入进一步增强了推理过程的透明性与可解释性,为模型提供了从视觉特征到高层推理的完整监督信号。
使用方法
该数据集主要用于评估与增强视觉-语言模型在城市场景中的空间推理能力。研究者可基于零样本设置测试模型原有性能,或通过微调训练提升模型对复杂空间关系的理解。数据集支持分任务类型评估,尤其适合探究模型在否定推理、反事实假设等组合逻辑任务上的表现。其链式思维答案可作为推理过程的监督信号,用于训练具有可解释性推理能力的多模态模型。
背景与挑战
背景概述
基于街景图像的合成视觉问答数据集由韩国科学技术院的研究团队于2025年创建,旨在解决视觉-语言模型在城市场景空间推理能力评估的空白。该数据集通过街景图像的分割、深度估计和目标检测预测构建合成问答对,并配备链式思维推理答案,专门用于评估模型对城市环境中细粒度空间关系的理解能力。其创新性在于将城市空间推理确立为视觉-语言模型研究的新领域,为城市规划、导航系统和公共空间设计等应用提供了重要的评估基准。
当前挑战
该数据集核心挑战在于解决城市场景中的复杂空间推理问题,包括否定推理、反事实推理和多步组合逻辑推理等高阶认知任务。构建过程中面临三大技术挑战:一是需要协调语义分割、目标检测和深度估计多个预训练模型的输出误差,特别是目标检测中存在8%的过计数问题;二是需确保合成问答对在保持大规模生成的同时具备逻辑一致性和视觉合理性,经人工验证显示链式思维答案的合理性达90%;三是需平衡感知型任务与推理型任务的数据分布,避免微调过程中出现灾难性遗忘现象。
常用场景
经典使用场景
该数据集在计算机视觉与自然语言处理的交叉领域中被广泛应用于评估视觉语言模型对城市街景的空间推理能力。通过合成视觉问答任务,研究者能够系统测试模型在复杂城市场景中处理否定性查询、反事实推理及多步逻辑推理的表现,为模型在专业领域的适应性提供标准化评估框架。
解决学术问题
该数据集有效解决了视觉语言模型在城市场景中空间推理能力不足的学术问题,特别是针对模型在否定推理、反事实假设和深度感知等复杂任务中的表现缺陷。通过提供链式思维监督数据,它推动了模型从表面关键词匹配向结构化空间关系理解的转变,为领域适应性研究提供了重要基准。
衍生相关工作
该数据集催生了多项基于合成数据增强视觉推理的研究,如SpatialVLM通过深度感知问题提升空间量化推理能力,OmniDrive利用反事实驾驶场景生成决策导向的问答对。这些工作延续了其模块化数据生成思路,进一步拓展到医疗影像、卫星图像等专业领域的多模态推理任务中。
以上内容由遇见数据集搜集并总结生成



