OST-Bench
收藏github2025-06-11 更新2025-06-12 收录
下载链接:
https://github.com/rbler1234/OST-Bench
下载链接
链接失效反馈官方服务:
资源简介:
OST-Bench是一个旨在从主动探索场景的代理视角评估在线时空理解的基准测试。其“在线”方面强调处理和推理增量获取的观察结果的需求,而“时空”组件则需要将当前视觉输入与历史记忆相结合以支持动态空间推理。OST-Bench更好地反映了现实世界具身感知的挑战。基于高效的数据收集流程,OST-Bench由来自ScanNet、Matterport3D和ARKitScenes的1.4k场景和10k问答对组成。
OST-Bench is a benchmark designed to evaluate online temporal-spatial understanding from the perspective of an agent in an active exploration scenario. The 'online' aspect emphasizes the necessity of processing and reasoning over incrementally acquired observations, while the 'temporal-spatial' component necessitates the integration of current visual inputs with historical memories to support dynamic spatial reasoning. OST-Bench more accurately reflects the challenges of embodied perception in the real world. Based on an efficient data collection process, OST-Bench consists of 1.4k scenes and 10k question-answer pairs from ScanNet, Matterport3D, and ARKitScenes.
创建时间:
2025-05-16
原始信息汇总
OST-Bench 数据集概述
数据集简介
- 名称: OST-Bench (Online Spatio-Temporal Benchmark)
- 目标: 评估多模态大语言模型(MLLMs)在主动探索场景中的在线时空理解能力
- 特点:
- 强调"在线"处理增量获取的观察数据
- 需要结合当前视觉输入和历史记忆进行动态空间推理
- 反映真实世界具身感知的挑战
数据集构成
- 场景数量: 1.4k
- 问答对数量: 10k
- 数据来源: ScanNet, Matterport3D, ARKitScenes
评估指标
主要评估维度
- Agent State
- Position (JUD./EST.)
- Orientation (JUD./EST.)
- Agent Visible Info
- Existence (JUD./TEMP.)
- Quantity (CNT.)
- Diversity (JUD.)
- Order (JUD.)
- Agent-object Spatial
- Direction (JUD./TEMP./EST.)
- Distance (JUD./TEMP./EST.)
评估模型
- 专有模型: Claude-3.5-Sonnet, Gemini-2.0-Flash, GPT-4o, GPT-4.1
- 开源模型: InternVL-2.5系列, QwenVL-2.5系列, LLaVA-Video系列, LLaVA-Onevision系列
- 基线: Human-Level, Chance-Level
数据获取
- 下载地址: https://www.kaggle.com/datasets/jinglilin/ost-bench/
- 文件结构要求:
- 解压图像文件和JSON文件后按指定结构放置
评估流程
专有模型评估
- 设置API密钥
- 运行统一推理脚本
- 使用OST评估器获取结果
开源模型评估
- 设置对应环境
- 下载模型检查点
- 运行特定模型推理脚本
- 使用OST评估器获取结果
当前状态
- 待完成事项: 完整代码发布
搜集汇总
数据集介绍

构建方式
在计算机视觉与多模态大语言模型快速发展的背景下,OST-Bench通过高效的数据采集流程构建而成。该数据集整合了ScanNet、Matterport3D和ARKitScenes三大主流三维场景数据集,精心设计了1.4万个场景和1万组问答对。数据构建过程特别注重在线时空理解的特性,采用增量式观测采集策略,模拟智能体在动态环境中的探索过程。每个场景都经过严格的空间标注和时间序列标注,确保能够全面评估模型对历史记忆与实时观测的融合能力。
特点
作为专注于在线时空理解评估的基准测试,OST-Bench具有鲜明的特色。数据集涵盖智能体状态感知、可见信息识别以及智能体-物体空间关系三大类任务,下设位置判断、方向估计、存在性检测等15个细粒度评估维度。特别值得注意的是,该基准通过逐步延长的探索视域和不断累积的记忆需求,系统性地考察模型在复杂时空推理任务中的表现。实验数据显示,现有模型在长时记忆检索和复杂空间推理需求下性能显著下降,这精准揭示了当前多模态大语言模型在具身推理中的核心挑战。
使用方法
使用OST-Bench需要遵循标准化的评估流程。研究者需从Kaggle平台获取数据集,按照指定目录结构放置图像文件和标注JSON。评估支持闭源模型(如GPT-4、Gemini)和开源模型(如QwenVL、InternVL)两类架构。对于闭源模型,需在配置文件中添加相应API密钥;开源模型则需按照官方指南搭建运行环境。统一的评估脚本会自动处理增量观测序列,生成包含位置判断准确率、方向估计误差等指标的详细报告。评估系统特别设计了动态难度调节机制,可根据模型表现自动调整时空推理任务的复杂程度。
背景与挑战
背景概述
随着多模态大语言模型(MLLMs)的快速发展,视觉与语言的融合推理能力取得了显著突破。然而,现有基准测试多局限于离线环境下的静态输入评估,难以反映真实世界中动态探索场景的复杂性。为此,研究团队推出了OST-Bench基准测试,专注于从主动探索场景的智能体视角评估在线时空理解能力。该数据集构建于ScanNet、Matterport3D和ARKitScenes三大平台之上,包含1.4k个场景和10k组问答对,其创新性在于强调对增量获取观察数据的实时处理能力,以及整合当前视觉输入与历史记忆的动态空间推理需求。这一基准测试的建立,为具身感知领域的算法评估提供了更贴近实际应用场景的衡量标准。
当前挑战
OST-Bench揭示了多模态大语言模型在时空推理方面的显著缺陷。测试结果表明,随着探索范围扩大和记忆需求增长,模型准确率呈现明显下降趋势。具体挑战体现在三个方面:复杂空间关系的动态推理要求模型持续整合新旧观察数据;长时记忆检索机制需要优化以应对场景探索的时序特性;实时处理增量输入的能力亟待提升。数据构建过程中,如何设计有效的问题来评估不同层级的时空理解能力,以及确保数据采集管道的效率与质量,都构成了重要的技术挑战。这些发现为改进在线具身推理系统指明了关键研究方向。
常用场景
经典使用场景
在计算机视觉与多模态大语言模型(MLLMs)交叉领域,OST-Bench作为首个专注于在线时空理解的基准测试,为评估智能体在动态场景中的主动感知能力提供了标准化平台。其核心价值在于模拟真实环境中智能体通过增量观察进行空间推理的过程,研究者可利用该数据集测试模型对连续视觉输入的时序整合能力,以及基于历史记忆的复杂空间关系推断性能。
衍生相关工作
基于OST-Bench的基准结果,已催生多个改进MLLMs时空推理能力的重要研究。InternVL-2.5系列模型通过引入时空注意力机制提升长程依赖建模,QwenVL-2.5则探索了分层记忆架构以优化历史信息检索。这些工作共同推动了在线具身智能领域从静态评估向动态交互研究的范式转变。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)在视觉与语言融合推理方面展现出卓越能力,OST-Bench作为在线时空理解基准测试应运而生,旨在评估智能体在动态场景探索中的实时感知与推理能力。该数据集基于ScanNet、Matterport3D和ARKitScenes构建,包含1.4k个场景和10k个问答对,其创新性在于突破了传统离线评估范式,通过增量观测数据模拟真实环境下的具身感知挑战。当前研究聚焦于模型在长时序探索中的性能衰减现象,实验表明主流MLLMs在空间方向判断、动态目标追踪等复杂任务上准确率显著下降,尤其在记忆检索和时空关联推理环节暴露出明显短板。这一发现为提升自主智能体的环境交互能力提供了关键方向,推动着记忆增强架构和在线学习机制成为领域研究热点。
以上内容由遇见数据集搜集并总结生成



