OpenBench

github2025-12-23 更新2025-12-26 收录

下载链接：

https://github.com/harmlessSR/OpenBench

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBench是一个基于多传感器行人视角数据构建的精确户外基准数据集，包含8,736个问题-答案对。其任务分为三个层次，代表了空间推理能力的进展，涵盖了现实条件下的静态、关系和动态任务。

OpenBench is a high-precision outdoor benchmark dataset constructed from multi-sensor pedestrian-centric data, comprising 8,736 question-answer pairs. Its tasks are divided into three hierarchical levels, embodying the progression of spatial reasoning capabilities, and covering static, relational and dynamic tasks under realistic conditions.

创建时间：

2025-12-19

原始信息汇总

OpenBench 数据集概述

数据集基本信息

数据集名称：OpenBench
核心定位：一个用于评估多模态大语言模型空间智能的、度量精确的户外基准数据集。
数据规模：包含 8,736 个问答对。
数据来源：基于多传感器行人视角数据构建。

核心特点与目标

评估重点：旨在对领先的开源和闭源多模态大语言模型进行全面的空间推理能力评估。
评估场景：专注于真实世界条件下的开放世界场景。
关键发现：现有模型在室内基准测试上的性能提升无法迁移到开放世界设置中，表明其空间智能具有脆弱性且缺乏泛化能力。

任务结构

任务采用三层层次结构设计，代表了空间推理能力的递进，涵盖：

静态任务
关系任务
动态任务

评估与使用

评估工具：基于开源评估工具包 VLMEvalKit 进行适配以支持OpenBench的指标和数据格式。
数据获取：评估代码首次运行时将从HuggingFace自动下载并解压完整基准数据。
存储需求：完整数据集（视频+元数据）需要至少 160GB 的可用磁盘空间。
配置文件：通过修改 config/openbench.json 文件中的 data_path 可指定数据下载存储路径。
运行评估：使用命令 python run.py --config config/openbench.json 启动评估流程。

相关资源

论文地址：https://arxiv.org/abs/2512.19683
项目主页：https://harmlesssr.github.io/openbench/
HuggingFace数据集地址：https://huggingface.co/datasets/HarmlessSR07/OpenBench
代码仓库地址：https://github.com/harmlessSR/OpenBench

搜集汇总

数据集介绍

构建方式

在空间智能评估领域，OpenBench数据集通过多传感器行人视角数据构建而成，其核心在于从真实世界的户外场景中采集高精度度量信息。该数据集包含8,736个精心设计的问答对，这些数据源于对现实环境中静态、关系和动态空间任务的系统化捕捉。构建过程强调对户外开放世界的全面覆盖，确保了数据在复杂光照、多变视角及动态物体干扰下的代表性与真实性，为评估多模态大语言模型的空间推理能力提供了坚实的实证基础。

特点

OpenBench数据集展现出鲜明的层次化任务结构，将空间推理能力划分为静态、关系与动态三个渐进层级，全面覆盖了真实世界条件下的多样化场景。其特点在于以度量精确性为核心，所有问答均基于多传感器采集的客观空间信息，有效避免了主观偏差。数据集规模庞大且场景多样，不仅包含丰富的视觉序列，还融合了时空关联的元数据，为模型提供了从简单方位识别到复杂运动预测的连续挑战，从而能够深入揭示模型在开放环境中的泛化能力与固有局限。

使用方法

使用OpenBench进行评估需依托VLMEvalKit这一开源工具包，该框架已针对数据集格式与评估指标进行了适配。用户首先需配置指定Python环境并安装相应依赖，随后通过修改配置文件指定数据存储路径，系统将自动从HuggingFace平台下载并解压约160GB的完整数据。运行评估时，只需执行简单命令即可启动自动化流程，包括数据校验、模型加载、推理执行与结果生成。该方法支持灵活调整模型类型与评估参数，便于研究者在统一标准下对不同多模态大语言模型进行系统化比较与深入分析。

背景与挑战

背景概述

在人工智能领域，多模态大语言模型（MLLMs）的空间推理能力是衡量其环境感知与交互智能的关键指标。OpenBench数据集由中国科学院大学、苏黎世联邦理工学院及微软亚洲研究院的研究团队于2025年共同创建，旨在填补现有基准测试在开放世界场景下的空白。该数据集基于多传感器行人视角数据构建，包含8,736个精准度量的问答对，核心研究问题聚焦于评估模型在静态、关系及动态任务中的空间推理泛化能力。其推出为统一评估真实条件下MLLMs的空间智能提供了重要工具，推动了从室内受限环境到复杂户外场景的研究范式转变。

当前挑战

OpenBench致力于解决多模态大语言模型在开放世界空间推理中的泛化难题，其核心挑战在于模型在室内基准测试中获得的性能增益难以迁移至动态、多变的户外环境。数据构建过程中，研究团队需克服多传感器数据同步与校准的技术障碍，确保视频、深度信息等模态的度量精确性。同时，设计涵盖多层次空间关系的问答对时，需平衡任务复杂度与标注一致性，以真实反映模型在几何理解、轨迹预测等任务中的能力边界。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，空间推理能力是评估智能体环境交互水平的核心指标。OpenBench数据集以其严谨的度量精度和丰富的多传感器行人视角数据，为研究者提供了一个经典的评估平台，用于系统检验多模态大语言模型在开放世界中的静态、关系及动态空间任务上的表现。该数据集通过层次化的任务结构，模拟真实户外场景中的复杂空间认知挑战，成为推动模型从室内封闭环境向开放世界泛化能力研究的关键工具。

衍生相关工作

OpenBench的发布催生了一系列围绕开放世界空间推理的衍生研究。基于其构建的评估框架与发现的能力缺口，后续工作可能聚焦于设计新型的模型架构、训练策略或数据增强方法，以专门提升模型在户外场景下的空间认知性能。同时，该数据集也为统一比较不同多模态大语言模型在复杂空间任务上的优劣提供了标准，推动了相关评测基准与模型改进方向的持续演进。

数据集最近研究