OST-Bench

Name: OST-Bench
Creator: 上海人工智能实验室, 上海交通大学, 香港大学, 香港中文大学
Published: 2025-07-11 01:56:07
License: 暂无描述

arXiv2025-07-11 更新2025-07-12 收录

下载链接：

https://rbler1234.github.io/OSTBench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OST-Bench 是一个用于评估在线时空场景理解能力的基准数据集，由上海人工智能实验室等机构创建。该数据集由 1.4k 个场景和 10k 个问答对组成，数据来源于 ScanNet、Matterport3D 和 ARKitScenes。数据集的设计模拟了真实世界中的场景，要求模型具备在线时空推理能力，能够根据动态更新的视觉信息进行推理。OST-Bench 的引入填补了现有基准数据集在在线时空推理能力评估方面的空白，为评估多模态大型语言模型在现实世界场景中的表现提供了重要的测试平台。

OST-Bench is a benchmark dataset for evaluating online spatio-temporal scene understanding capabilities, developed by institutions including the Shanghai AI Laboratory. It comprises 1.4k scenes and 10k question-answer pairs, sourced from ScanNet, Matterport3D and ARKitScenes. The dataset is designed to simulate real-world scenarios, requiring models to possess online spatio-temporal reasoning abilities and conduct reasoning based on dynamically updated visual information. The introduction of OST-Bench fills the gap in existing benchmark datasets for evaluating online spatio-temporal reasoning capabilities, providing a critical testbed for assessing the performance of multimodal large language models in real-world scenarios.

提供机构：

上海人工智能实验室, 上海交通大学, 香港大学, 香港中文大学

创建时间：

2025-07-11

原始信息汇总

OST-Bench 数据集概述

基本信息

数据集名称: OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
作者: Jingli Lin*, Chenming Zhu*, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang†, Jiangmiao Pang†
贡献: *Equal Contribution †Corresponding Author
相关链接: Paper | Code | Data | arXiv

数据集简介

目的: 评估多模态大语言模型（MLLMs）在在线时空场景理解中的能力。
特点: 基于主动探索场景的视角，评估模型的在线时空理解能力。
数据来源: ScanNet, Matterport3D, ARKitScenes
规模: 1.4k场景和10k问答对

数据集分类

主要类别: 3个主要问题类别
子类别: 15个细粒度问题子类型

数据集统计

子类型分布: 包含详细统计
词云: 展示高频词汇
对话长度分布: 展示对话长度的统计信息

示例场景

场景选择: 1mp3d_0030_region2scene0050_00scene0100_00
系统提示: 假设你正在探索一个房间，所有物体都是静止的。随着时间的推移，你改变在房间中的位置和方向，并拍摄图像。
对话轮次: 5轮
问题示例: "Remember, have you seen any flowerpot(s) so far?"
- 选项: A. Yes, B. No

排行榜

评估模型: 包括专有模型和开源模型
评估指标: Overall, Agent State, Agent Visible Info, Agent Object Spatial
基准参考: Human-Level, Chance-Level

分析

探索过程中的性能下降: 模型准确性随着探索的深入显著下降。
错误分布统计: 推理错误占所有错误的60%以上。
时空推理捷径: 模型倾向于避免检索关键信息，依赖浅层推理。
跨视图分析: 模型在复杂线索或长期记忆检索需求下性能显著下降。

引用

bibtex @article{lin2025ostbench, title={OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding}, author={JingLi Lin and Chenming Zhu and Runsen Xu and Xiaohan Mao and Xihui Liu and Tai Wang and Jiangmiao Pang}, journal={arXiv preprint arXiv:2507.07984}, year={2025} }

搜集汇总

数据集介绍

构建方式

OST-Bench数据集构建于ScanNet、Matterport3D和ARKitScenes三大室内场景数据集的基础之上，通过高效的数据收集流程整合了1.4k个场景和10k个问答对。数据采集过程中，采用最小生成树算法生成合成探索轨迹，确保路径连续性和视觉观察连贯性。每个场景构建多轮对话格式的评估样本，每轮新增4-5帧时序视频作为增量观察，并基于规则模板生成涵盖智能体状态、可见信息和空间关系三大类15个子类型的细粒度问题。通过严格的可见性判定标准（属性可见性与空间可见性双重校验）和样本质量验证协议（人工审核错误率<5%），确保数据集的科学性与可靠性。

特点

该数据集的核心特征体现在其在线时空理解评估范式的创新性：1）在线性要求模型对增量获取的观察序列进行实时处理与推理，模拟真实世界中的动态感知过程；2）时空性强调当前视觉输入与历史记忆的整合，支持复杂的三维空间关系推演。数据样本设计具有多模态特性（RGB-D视频与语言问答）、细粒度时空标注（帧级可见性标注与9-DoF包围框空间参数）以及渐进式难度梯度（随探索步长增加而提升的推理复杂度）。相比传统离线基准，其独特价值在于通过10k个涵盖位置判断、方向估计、物体计数等多元任务的问题，系统评估模型在动态环境中的持续认知能力。

使用方法

使用OST-Bench需遵循多轮对话评估协议：首先加载场景探索视频流，每轮将新增帧序列追加至历史观察中，模拟智能体的连续感知过程。针对每轮生成的时空推理问题（如'当前电视位于智能体左侧还是右侧？'），模型需综合当前观察与历史记忆进行回答。评估指标根据问题类型差异化设计——判断类问题采用准确率，计数类要求精确匹配，时空定位类检验回合索引正确性，而估计类问题则使用平均相对精度（MRA）。为控制变量，建议在零样本设置下测试模型性能，并通过对比人类基线（83.5%平均准确率）与随机基线（36.9%）量化模型差距。数据集官网提供标准化评估脚本与可视化工具，支持对错误模式（如时空推理捷径现象）的细粒度分析。

背景与挑战

背景概述

OST-Bench是由上海人工智能实验室、上海交通大学、香港大学和香港中文大学的研究团队于2025年提出的多模态大语言模型评估基准。该数据集聚焦于智能体在静态室内环境中动态探索时的在线时空场景理解能力，包含来自ScanNet、Matterport3D和ARKitScenes的1.4k场景和10k问答对。其创新性体现在首次将'在线'（增量观测处理）与'时空'（动态空间推理）特性相结合，为具身智能研究提供了更贴近真实场景的评估框架。

当前挑战

该数据集主要面临两大核心挑战：在领域问题层面，现有MLLMs在需要复杂时空推理的任务上表现欠佳，当探索步长增加时准确率下降超过30%；在构建层面，需解决跨模态数据对齐、增量观测的可见性标注、以及确保问答对时空一致性等技术难题。特别地，模型普遍存在'时空推理捷径'现象——倾向于依赖浅层推断而非从长期记忆中检索关键信息，这成为制约性能提升的关键瓶颈。

常用场景

经典使用场景

OST-Bench作为首个专注于在线时空场景理解的基准测试，其经典使用场景体现在对多模态大语言模型（MLLMs）在动态探索环境中的实时推理能力评估。该数据集通过模拟智能体在静态室内场景中的渐进式探索，构建了包含1.4万场景和1万问答对的测试环境，要求模型基于增量观察更新空间认知。例如在导航任务中，模型需回答随时间演变的方位问题（如'棕色枕头当前位于我的左后方'），这种设定突破了传统离线基准固定输入的限制，更贴近真实世界机器人感知的连续性需求。

实际应用

该数据集的实际应用价值主要体现在智能体交互系统的开发中。在服务机器人场景下，模型需根据实时摄像头输入判断'用户刚才放置的钥匙在客厅哪个方位'；在增强现实导航中，系统要动态回答'距离最近的安全出口方向是否改变'。OST-Bench的在线评估机制可直接迁移至这些需要持续环境感知的场景，其设计的15种子任务（如时序定位、空间估计）对应着现实中对物体追踪、路径规划等核心功能的需求。

衍生相关工作

OST-Bench催生了两个方向的经典衍生研究：一是时空推理架构改进，如Claude-3.5-Sonnet采用的记忆压缩机制和InternVL-2.5-78B提出的跨帧注意力模块；二是新型评估范式的建立，研究者基于其框架开发了Ego4D-OST等扩展基准。该数据集还启发了对'时空推理捷径'现象的深入研究，相关论文《Memory-Augmented MLLMs for Online Reasoning》通过分析模型在方向判断任务中的典型错误，提出了时空记忆检索的强化学习方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集