SIBench
收藏arXiv2025-09-23 更新2025-11-21 收录
下载链接:
https://github.com/song2yu/SIBench-VSR
下载链接
链接失效反馈官方服务:
资源简介:
SIBench是一个包含近20个开源数据集的视觉空间推理评估基准,涵盖了23种不同的视觉空间推理任务设置。这些任务设置旨在评估视觉语言模型(VLMs)在空间推理方面的能力,包括基本感知、空间理解和规划三个层次的能力。SIBench提供了对现有模型在视觉空间推理任务中的表现进行综合评估的工具,揭示了当前模型在精确数值估计、多视图推理、时间信息处理和空间想象等方面的不足。
SIBench is a visual spatial reasoning evaluation benchmark comprising nearly 20 open-source datasets and covering 23 distinct visual spatial reasoning task settings. These task settings are designed to evaluate the spatial reasoning capabilities of Vision-Language Models (VLMs), including three hierarchical ability dimensions: basic perception, spatial understanding, and planning. SIBench provides a toolkit for comprehensively assessing the performance of existing models on visual spatial reasoning tasks, and reveals the shortcomings of current models in precise numerical estimation, multi-view reasoning, temporal information processing, and spatial imagination.
提供机构:
上海交通大学,腾讯PCG,澳门大学,大连理工大学,香港中文大学
创建时间:
2025-09-23
搜集汇总
数据集介绍

构建方式
在视觉空间推理研究领域,构建高质量评估基准对推动模型发展至关重要。SIBench通过系统整合近20个开源数据集,采用严格的质量筛选机制,优先选用人工标注数据以确保空间标注的精确性,仅在缺乏人工标注时采用经过人工审核的半自动标注数据。该数据集涵盖单图像、多视图和视频三种输入模态,通过分层抽样策略从23种任务设置中提取数据样本,确保在基础感知、空间理解和空间规划三个认知层级上的全面覆盖。构建过程特别注重消除由表情符号和文本构成的伪视觉输入,保证空间信息完全源自真实视觉内容,最终形成包含约9,000个样本的高质量评估集合。
特点
SIBench作为综合性视觉空间推理基准,其核心特点体现在多维度认知层级的系统划分。数据集将任务精准归类为基础感知、空间理解与空间规划三大层级,涵盖物体存在性判断、空间关系分析、动态轨迹描述等23种具体任务设置,呈现从低阶感知到高阶推理的渐进式认知结构。在数据构成上,该基准融合了单图像、多视图图像和视频序列三种输入形式,支持判断题、选择题和数值型问题等多种应答模式,有效模拟了真实场景中空间智能的复杂性。其样本来源跨越近20个权威开源数据集,通过任务类型的交叉验证和输入模态的混合编排,显著增强了评估的多样性和泛化能力。
使用方法
该数据集的使用需遵循标准化评估流程,首先需将输入图像统一处理至指定分辨率,对于视频数据则采用均匀采样30帧的标准预处理方法。评估时需根据问题类型适配专用提示模板,例如选择题需前置“请从以下选项中选择”的引导语,数值题则需明确“请用数字作答”的指令要求。为避免思维链提示对评估结果的干扰,默认不启用分步推理机制。对于模型输出的非格式化结果,建议采用后处理模块进行答案标准化。评估指标根据问题类型差异化设计:判断题和选择题采用直接匹配准确率,数值题则采用平均相对精度指标,通过十个置信度阈值下的相对误差计算综合得分。为降低全量测试成本,可选用包含各任务40个样本的SIBench-mini子集进行快速验证。
背景与挑战
背景概述
SIBench数据集由腾讯ARC实验室联合多所高校于2025年提出,聚焦视觉空间推理能力的系统性评估。该数据集旨在解决视觉语言模型在三维空间认知中的核心挑战,通过整合近20个开源基准的23类任务,构建了涵盖基础感知、空间理解与空间规划的三层认知体系。其创新性在于首次将空间智能分解为可量化的能力维度,为自动驾驶、具身智能等前沿领域提供了标准化评估工具,推动了多模态模型从语义理解向空间认知的范式转移。
当前挑战
在领域问题层面,SIBench需应对视觉空间推理中四大核心挑战:模型在基础感知任务中易受遮挡、视角变化干扰;数值估计任务揭示其缺乏精确几何量化能力;多视角推理任务暴露三维重建与时空关联的薄弱;空间想象任务则凸显模型对非可见场景的推演能力不足。在构建过程中,数据整合面临异构标注标准的对齐难题,视频数据采样需平衡时序信息完整性与计算效率,且需通过人工校验消除合成数据与真实场景的语义鸿沟。
常用场景
经典使用场景
在视觉空间智能研究领域,SIBench作为综合性评估基准,其经典应用场景聚焦于系统化评测视觉语言模型在三维空间理解与推理方面的核心能力。该基准通过整合近20个开源数据集,涵盖23种任务设置,为模型在基础感知、空间理解和空间规划三个认知层级的表现提供标准化测试平台。研究人员可借助SIBench量化分析模型在物体定位、多视角推理、时空动态理解等关键任务中的性能表现,尤其适用于评估模型从二维视觉输入中重建三维空间关系的潜力。
实际应用
该基准驱动的评估范式已广泛应用于自动驾驶系统的环境感知模块优化,通过测试模型在轨迹描述、速度估计等动态任务的表现,助力提升车辆对复杂交通场景的认知能力。在机器人导航领域,SIBench的任务设置可直接转化为机械臂操作路径规划、室内导航决策等实际需求。增强现实系统则利用其空间想象力测试结果,优化虚拟物体在真实环境中的三维注册精度,显著提升用户体验的沉浸感与交互自然度。
衍生相关工作
基于SIBench揭示的模型缺陷,研究社区衍生出多类创新工作。SpatialVLM通过端到端训练策略增强模型的几何推理能力;RoboRefer引入深度感知模块提升机器人操作场景的空间参照性能;Visual CoT构建链式思维数据集推动多步推理机制发展。这些工作共同形成了从基准诊断到方法创新的完整研究闭环,持续推动视觉语言模型在具身智能、工业自动化等垂直领域的应用深化。
以上内容由遇见数据集搜集并总结生成



