OSI-Bench

github2026-01-05 更新2026-01-06 收录

下载链接：

https://github.com/mingrui-wu/OSI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

OSI-Bench是一个基于多传感器行人视角数据的精确户外基准测试，包含8,736个问答对，用于评估静态、关系和动态任务下的空间推理能力。

OSI-Bench is a rigorous outdoor benchmark built on multi-sensor pedestrian-view data, consisting of 8,736 question-answer pairs intended to assess spatial reasoning capabilities under static, relational, and dynamic tasks.

创建时间：

2025-12-19

原始信息汇总

OSI-Bench 数据集概述

数据集基本信息

数据集名称：OSI-Bench (Open Spatial Intelligence Bench)
核心定位：一个用于评估多模态大语言模型（MLLMs）空间推理能力的、度量精确的户外基准。
数据规模：包含 8,736 个问答对。
数据来源：基于多传感器行人视角数据构建。

数据集内容与结构

任务层级：任务结构分为三个层次，代表了空间推理能力的递进，涵盖了真实世界条件下的静态、关系和动态任务。
评估重点：专注于评估模型在开放世界环境下的空间智能。

主要发现与结论

现有模型缺陷：评估发现，当前最先进的多模态大语言模型缺乏可泛化的空间智能，其在室内基准测试上的优势无法迁移到开放世界场景中。
评估意义：该基准提供了首个在真实世界条件下对静态、关系和动态任务进行统一评估的框架。

数据集获取与使用

获取地址：数据集托管于 Hugging Face，地址为：https://huggingface.co/datasets/HarmlessSR07/OSI-Bench
存储需求：完整数据集（视频+元数据）需要至少 160GB 的可用磁盘空间。
评估工具：使用开源评估工具包 VLMEvalKit 进行评估，代码库已适配支持 OSI-Bench 的指标和数据格式。

引用信息

如果使用本数据集或相关研究，请引用以下论文：

@article{wu2025indoor, title={From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs}, author={Mingrui Wu and Zhaozhi Wang and Fangjinhua Wang and Jiaolong Yang and Marc Pollefeys and Tong Zhang}, journal={arXiv preprint arXiv:2512.19683}, year={2025}}

搜集汇总

数据集介绍

构建方式

在空间智能评估领域，OSI-Bench的构建体现了对开放世界场景的严谨考量。该数据集基于多传感器采集的行人视角数据，通过精心设计的流程生成了8,736个高质量的问答对。其构建过程注重度量精度，确保每个问题都与真实世界中的空间关系紧密对应，从而为模型评估提供了可靠的基础。数据采集覆盖了多样化的户外环境，通过层次化的任务结构，系统性地涵盖了静态、关系和动态三种空间推理类型，使得数据集能够全面反映模型在复杂现实场景中的认知能力。

特点

OSI-Bench作为户外空间智能基准，展现出鲜明的技术特色。数据集以行人视角的多传感器数据为核心，确保了场景的真实性与复杂性。其任务设计采用三层递进式结构，从基础的静态空间感知到动态关系推理，逐步提升认知难度，有效模拟了人类在开放环境中的空间理解过程。数据规模达到八千余个问答对，兼具广度与深度，为大规模多模态语言模型提供了极具挑战性的评估平台。这一设计首次实现了在统一框架下对模型在真实世界条件下空间推理能力的系统化测评。

使用方法

利用OSI-Bench进行评估需依托VLMEvalKit这一开源工具包。使用者首先需克隆代码仓库并配置相应的Python环境，注意根据目标模型选择适配的Transformers库版本。数据集可通过修改配置文件指定存储路径，系统将在首次运行时自动从HuggingFace下载并解压约160GB的完整数据。运行评估时，只需执行简单命令加载配置文件，工具包便会自动完成数据检查、模型推理与结果生成的全流程。该集成化方案大幅降低了使用门槛，使研究者能够便捷地对各类多模态语言模型进行标准化空间智能测评。

背景与挑战

背景概述

随着多模态大语言模型在视觉语言任务中的广泛应用，其空间推理能力逐渐成为评估模型智能水平的关键维度。OSI-Bench数据集由中国科学院大学、苏黎世联邦理工学院及微软亚洲研究院的研究团队于2025年联合创建，旨在构建一个基于多传感器行人视角数据的、度量精确的户外空间智能基准。该数据集包含8,736个问答对，通过静态、关系和动态三个层次的任务结构，系统评估模型在真实开放世界环境中的空间理解与推理能力，揭示了当前模型从室内场景到户外复杂环境泛化时存在的显著差距，为推进空间人工智能研究提供了重要的实证基础。

当前挑战

OSI-Bench所针对的核心领域挑战在于解决多模态大语言模型在开放世界环境中空间推理能力的泛化不足问题。具体而言，现有模型在受控的室内基准测试中表现良好，但面对户外动态、复杂且尺度多变的空间场景时，其推理性能显著下降，难以完成需要精确度量理解、动态关系推断及长时序空间交互的任务。在数据集构建过程中，研究团队需克服多传感器数据采集的同步与校准、真实场景中空间标注的度量精确性保障，以及大规模行人视角视频与问答对的高质量对齐等工程挑战，这些因素共同构成了该基准在数据可靠性与任务复杂性方面的双重考验。

常用场景

经典使用场景

在空间智能研究领域，OSI-Bench数据集作为一项度量精确的户外基准测试工具，其经典应用场景集中于系统评估多模态大语言模型在真实开放世界中的空间推理能力。该数据集通过构建包含静态、关系和动态三个层次的任务体系，模拟行人视角下的复杂空间交互，为研究者提供了一个从室内可控环境向户外不可控场景过渡的标准化测试平台，从而深入探究模型在多变现实条件下的空间认知极限。

实际应用

在实际应用层面，OSI-Bench数据集为开发具备鲁棒空间智能的自主系统提供了关键验证基础。其构建的户外行人视角任务可直接服务于增强现实导航、智能机器人环境交互以及自动驾驶系统的场景理解等前沿领域。通过量化评估模型在真实动态环境中的表现，该数据集能够指导技术迭代，助力构建能够在复杂城市街道、开放广场等非结构化场景中安全、准确执行空间推理任务的实用化人工智能系统。

衍生相关工作

围绕OSI-Bench数据集，学术界已衍生出一系列聚焦于提升模型户外空间推理能力的经典研究工作。这些工作主要沿两个方向展开：一是基于该基准揭示的模型缺陷，设计新型的架构或训练范式以增强模型对开放世界几何与语义关系的理解；二是利用其提供的精细标注数据，开发针对动态场景理解、跨视角空间对齐等特定子任务的专用模型。这些研究共同推动了多模态空间智能从实验室向现实应用的实质性迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集