OpenBench

github2025-12-23 更新2025-12-30 收录

下载链接：

https://github.com/mingrui-wu/OpenBench

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBench是一个基于多传感器行人视角数据的精确户外基准测试，包含8,736个问答对，用于评估空间智能。任务分为三个层次，涵盖静态、关系和动态任务，适用于真实世界条件下的空间推理能力评估。

OpenBench is a precise outdoor benchmark based on multi-sensor pedestrian-view data, which contains 8,736 question-answer pairs for spatial intelligence evaluation. The tasks are divided into three levels, covering static, relational and dynamic tasks, and are designed to evaluate spatial reasoning capabilities under real-world conditions.

创建时间：

2025-12-19

原始信息汇总

OpenBench 数据集概述

数据集简介

OpenBench 是一个用于评估多模态大语言模型空间智能的基准测试和数据集。它基于多传感器行人视角数据构建，包含 8,736 个问答对，专注于真实世界户外环境下的空间推理能力评估。

核心特性

数据规模：包含 8,736 个精心设计的问答对。
数据来源：基于多传感器采集的真实世界行人视角数据构建。
环境场景：专注于户外开放世界环境，与常见的室内基准测试形成对比。
评估目标：旨在揭示多模态大语言模型在从室内环境迁移到开放世界时的空间推理能力差距。

任务结构

OpenBench 的任务采用三层层次结构设计，代表了空间推理能力的递进：

静态任务：涉及对场景中固定元素的空间理解。
关系任务：涉及对场景中物体间空间关系的推理。
动态任务：涉及对场景中运动或变化的空间推理。

技术细节

评估框架：基于开源评估工具包 VLMEvalKit (https://github.com/open-compass/VLMEvalKit) 进行适配和评估。
数据获取：数据集托管于 Hugging Face (https://huggingface.co/datasets/HarmlessSR07/OpenBench)，评估代码支持首次运行时自动下载和解压。
存储要求：完整数据集（视频 + 元数据）需要至少 160GB 的可用磁盘空间。
配置方式：通过修改 config/openbench.json 配置文件中的 data_path 项来指定数据存储目录。

主要发现

根据相关研究，当前领先的开源和闭源多模态大语言模型在 OpenBench 上的评估表明：现有的模型缺乏可泛化的空间智能，其在室内基准测试上的性能提升无法迁移到开放世界环境中。

相关资源

论文地址：https://arxiv.org/abs/2512.19683
项目主页：https://harmlesssr.github.io/openbench/
数据集地址：https://huggingface.co/datasets/HarmlessSR07/OpenBench
代码仓库：https://github.com/harmlessSR/OpenBench

搜集汇总

数据集介绍

构建方式

在空间智能评估领域，OpenBench数据集通过整合多传感器行人视角数据构建而成。该数据集采集了真实户外环境下的视频与元数据，并基于此生成了8,736个精确度量的问答对。构建过程遵循三层任务层级设计，依次涵盖静态、关系与动态空间推理任务，从而系统化地模拟了从基础感知到复杂场景理解的渐进式能力要求。

特点

OpenBench的核心特点在于其专注于户外开放世界的空间推理评估，弥补了现有基准多局限于室内环境的不足。数据集具备度量精确性，所有问题均基于真实世界的几何与时空关系设计。其任务结构呈现层次化，逐步考察模型在静态定位、物体关系推理以及动态轨迹预测等多维度的综合能力，为全面评估多模态大语言模型的空间智能提供了严谨的基准。

使用方法

该数据集的使用依托于VLMEvalKit评估工具包。用户需配置指定环境并安装适配的模型依赖库，通过修改配置文件中的数据存储路径以管理约160GB的数据集。评估流程自动化程度高，运行脚本可自动完成数据下载、解压、模型加载与推理。用户可通过单一命令启动评估，并支持进一步配置以实现多GPU并行等高级功能，便于研究者系统性地进行模型性能测试与分析。

背景与挑战

背景概述

在人工智能领域，空间推理能力是衡量多模态大语言模型环境感知与交互智能的关键维度。OpenBench数据集于2025年12月由中国科学院大学、苏黎世联邦理工学院及微软亚洲研究院的研究团队联合发布，旨在构建一个基于多传感器行人视角的户外空间推理基准。该数据集包含8,736个问答对，通过静态、关系与动态三层任务体系，系统评估模型在真实开放世界条件下的空间认知能力。其核心研究问题聚焦于揭示现有模型从室内环境到开放世界的泛化缺陷，为推进具身智能与机器人导航等应用提供了重要的评估工具与理论洞察。

当前挑战

OpenBench所针对的领域挑战在于，当前多模态大语言模型在复杂开放环境中的空间推理能力存在显著局限。尽管模型在受控室内基准测试中表现良好，但其空间智能难以迁移至动态、尺度多变且富含干扰的户外场景，暴露出现有方法在几何理解、运动推断与跨模态对齐方面的脆弱性。在构建过程中，研究团队需克服多传感器数据同步、三维空间度量精度保障以及大规模真实场景标注等工程难题，同时确保任务层次设计的科学性与评估标准的统一性，以支撑对模型能力的严谨诊断与比较。

常用场景

经典使用场景

在空间智能研究领域，OpenBench数据集为评估多模态大语言模型在开放世界中的空间推理能力提供了标准化测试平台。该数据集通过构建包含静态、关系和动态三个层级的任务体系，系统性地考察模型在真实户外场景下对距离、方向、物体间交互及运动轨迹的理解与推断。研究者通常利用该数据集对前沿开源与闭源模型进行统一评测，从而揭示模型在从室内环境迁移至开放世界时所表现出的能力差异与局限性。

解决学术问题

OpenBench数据集旨在解决当前多模态大语言模型在空间推理泛化性方面的核心学术问题。现有模型在受控的室内基准测试中表现优异，但其能力往往无法迁移至复杂多变的真实户外环境。该数据集通过提供度量精确的行人视角多传感器数据，首次在统一框架下评估模型在真实世界条件下的空间智能，揭示了模型在静态属性感知、动态关系推理及跨场景适应等方面存在的显著差距，推动了对于模型泛化性与鲁棒性的深入理论研究。

衍生相关工作

围绕OpenBench数据集，已衍生出一系列关注模型空间推理能力评估与提升的经典研究工作。这些工作主要集中于开发新的模型架构以适应户外动态场景，设计针对性的训练策略以增强空间泛化性，以及构建更细粒度的评测指标。同时，该数据集也促进了多模态理解、具身智能及场景理解等多个交叉研究领域的进展，为后续构建更通用、鲁棒的空间智能模型奠定了重要的基准基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集