OmniSpatial
收藏github2025-06-01 更新2025-06-04 收录
下载链接:
https://github.com/qizekun/OmniSpatial
下载链接
链接失效反馈官方服务:
资源简介:
OmniSpatial是一个用于诊断当前视觉语言模型在高级空间认知方面局限性的基准数据集,涵盖50个细粒度任务,分为动态推理、复杂空间逻辑、空间交互和视角转换四个维度,包含1.3K样本和1.5K问答对。
OmniSpatial is a benchmark dataset designed to diagnose the limitations of current vision-language models in advanced spatial cognition. It encompasses 50 fine-grained tasks, which are divided into four dimensions: Dynamic Reasoning, Complex Spatial Logic, Spatial Interaction, and Perspective Transformation. The dataset consists of 1.3K samples and 1.5K question-answer pairs.
创建时间:
2025-05-30
原始信息汇总
OmniSpatial 数据集概述
数据集简介
- 名称: OmniSpatial
- 目的: 诊断视觉语言模型(VLMs)在高阶空间认知方面的局限性
- 特点:
- 包含50个细粒度任务,分为4个维度
- 覆盖1.3K样本和1.5K问答对
- 多轮人工标注,无模板
数据集维度
| 维度 | 示例技能 | QA占比 |
|---|---|---|
| 动态推理 | 运动预测、时间排序、操作规划 | 27% |
| 复杂空间逻辑 | 几何变换、模式完成 | 16% |
| 空间交互 | 碰撞检查、路径规划、交通分析 | 20% |
| 视角转换 | 自我中心 ↔ 异我中心转换、假设视图 | 37% |
数据集统计
| 指标 | 数量 |
|---|---|
| 图像/视频片段 | 1,387 |
| 问答对 | 1,533 |
| 任务数量 | 50 |
| 许可证 | CC BY-NC 4.0 |
数据来源
- 网络爬取(MIT许可或CC图像)
- 驾驶测试库
- HOI4D
- MME
标注格式
json { "id": "0_0", "question": "How long will it take for the moving car closest to the camera that captured this image to reach it if its going at 10 m/s?", "options": ["2.7s", "14.7s", "25.7s", "3.9s"], "answer": 0, "task_type": "Dynamic_Reasoning", "sub_task_type": "Motion_Analysis" }
评估协议
- 评估类型:
direct: 直接答案提取re: 正则表达式匹配json: JSON格式解析llm: 使用LLM(GPT-4.1-mini)作为评判
- 提示类型:
none: 无系统提示zeroshot_cot: 零样本思维链manual_cot: 手动思维链
扩展功能
| 功能 | 描述 |
|---|---|
| PointGraph | 从SAM + SAM中心和边界框构建场景图 |
| Spatial CoT | 通过InstantMesh和Zero1-2-3++生成新视图 |
引用
bibtex @article{omnispatial25, title = {OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models}, author = {Mengdi Jia and Zekun Qi and Shaochen Zhang and Wenyao Zhang and Xinqiang Yu and Jiawei He and He Wang and Li Yi}, journal = {arXiv preprint arXiv:2502.13143}, year = {2025} }
许可证
- 代码: MIT License
- 数据: CC BY-NC 4.0(仅限非商业研究)
搜集汇总
数据集介绍

构建方式
在视觉语言模型研究领域,OmniSpatial数据集的构建体现了对高阶空间认知能力的系统性探索。研究团队通过多源数据采集策略,整合了互联网图像、驾驶考试帧序列、HOI4D视频片段以及智商测试素材,构建了包含1,387个视觉样本和1,533个问答对的基准测试集。采用多轮人工标注机制确保数据质量,摒弃模板化生成方式,每个样本均经过严格的JSON格式标准化处理,涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大认知维度下的50项细分任务。
特点
该数据集最显著的特征在于其系统性地覆盖了空间认知的多元维度,其中动态推理占比27%,复杂空间逻辑占16%,空间交互占20%,而最具挑战性的视角转换任务占比高达37%。数据集不仅呈现真实世界的视觉多样性,更通过精心设计的任务结构揭示了当前视觉语言模型的认知局限——最优模型仅达到56%的准确率,远低于人类89%的表现水平。特别设计的PointGraph场景图推理模块和Spatial CoT新颖视角思维链技术,为深入研究提供了创新工具。
使用方法
研究者可通过Hugging Face平台便捷获取数据集,其标准化目录结构按认知维度分类存储。评估体系支持开源模型、闭源API模型及思维链推理模型的多模态测试,提供直接答案提取、正则匹配、JSON解析和LLM评判四种评估方式。配套工具链包含环境配置脚本、并行评估模块和扩展功能接口,支持从基础性能测试到场景图构建、新颖视图生成等进阶研究。通过5次随机种子实验确保结果稳定性,评估结果自动生成标准化JSON报告。
背景与挑战
背景概述
OmniSpatial数据集由Mengdi Jia、Zekun Qi等研究人员于2025年推出,旨在全面评估视觉语言模型(VLMs)在高级空间认知任务上的性能。该数据集涵盖了动态推理、复杂空间逻辑、空间交互和视角转换四个维度的50项精细任务,包含1.3K样本和1.5K问答对。其数据来源多样,包括互联网图像、驾驶测试帧、HOI4D视频和智商测试题,并通过多轮人工标注确保质量。OmniSpatial不仅揭示了当前VLMs在空间推理上的局限性(最高准确率56% vs. 人类89%),还为研究社区提供了统一的评估工具和新型推理方法(如PointGraph和Spatial CoT),推动了视觉语言模型在空间认知领域的发展。
当前挑战
OmniSpatial数据集面临的挑战主要体现在两个方面:领域问题层面,当前视觉语言模型在高级空间认知任务(如动态运动预测、几何变换推理和视角转换)上的表现显著落后于人类,暴露出模型在复杂空间关系理解和多模态融合上的固有缺陷;构建层面,数据集的创建需平衡真实场景多样性(如网络爬取图像与专业驾驶测试帧)与标注一致性,而人工设计非模板化问答对时,既要覆盖50项任务的细粒度要求,又要避免引入标注者主观偏差,这对标注流程设计和质量控制提出了极高要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,OmniSpatial数据集为评估视觉语言模型(VLMs)的空间推理能力提供了标准化测试平台。其涵盖动态推理、复杂空间逻辑、空间交互及视角转换四大维度,通过1.3K样本和1.5K问答对,系统检验模型对物体运动轨迹预测、几何变换理解等高阶认知任务的性能。该数据集常被用于对比开源与闭源VLMs的优劣,例如在自动驾驶场景中评估模型对交通流分析的准确性。
实际应用
该数据集的实际价值在智能驾驶系统开发中尤为凸显。基于驾驶测试帧构建的样本可验证模型对车辆碰撞检测、路径规划等关键能力的可靠性。教育科技领域则利用其视角转换任务设计AR/VR交互系统,而互联网图像构成的复杂逻辑题项为社交媒体的内容理解模型提供优化依据。HOI4D视频片段的应用更拓展至服务机器人动作规划场景。
衍生相关工作
OmniSpatial催生了多个标志性研究分支:其启发的PointGraph技术将SAM分割与边界框结合,开创了基于场景图的动态推理新范式;Spatial CoT通过InstantMesh实现多视角链式思考,衍生出跨模态推理的增强框架。后续工作如《VLM-SpatialReasoning》等论文均以该数据集为基础,探索提示工程对空间认知任务的优化路径。
以上内容由遇见数据集搜集并总结生成



