STARE

github2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/STARE-bench/STARE

下载链接

链接失效反馈

官方服务：

资源简介：

STARE旨在全面覆盖多层次的空间推理，从基本的几何变换（2D和3D）到更综合的任务（立方体网络折叠和七巧板拼图）以及真实世界的空间推理场景（时间帧和透视推理）。每个任务都以多项选择或是否问题的形式呈现，使用精心设计的视觉和文本提示。数据集总共包含约4K实例，涵盖不同的评估设置。

STARE is designed to comprehensively cover multi-level spatial reasoning, ranging from basic geometric transformations (2D and 3D) to more complex tasks such as cube network folding and tangram puzzles, as well as real-world spatial reasoning scenarios including temporal frame and perspective reasoning. Each task is presented in the form of multiple-choice questions or yes/no questions, utilizing meticulously crafted visual and textual prompts. The dataset contains approximately 4K instances, covering various evaluation settings.

创建时间：

2025-05-11

原始信息汇总

STARE数据集概述

数据集简介

名称：STARE (Spatial Reasoning Evaluation)
目的：评估多模态模型在视觉模拟中的空间推理能力
特点：
- 涵盖多层次空间认知任务
- 包含约4K个实例
- 采用多选题或是非题形式

任务类型

基础几何变换（2D和3D）
综合任务（立方体网折叠和七巧板拼图）
真实世界空间推理场景（时间帧和视角推理）

数据格式

json { "pid": "问题ID", "question": "问题文本", "answer": "正确答案", "images": "所需图像列表", "other_info": "附加信息", "category": "问题类别" }

获取方式

python from datasets import load_dataset dataset = load_dataset("kuvvi/STARE", "folding_nets", split="test")

评估支持

开源模型：Qwen2-VL, InternVL, LLaVA等
闭源模型：GPT, Gemini, Claude等

引用信息

bibtex @misc{li2025unfoldingspatialcognitionevaluating, title={Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations}, author={Linjie Li and Mahtab Bigverdi and Jiawei Gu and Zixian Ma and Yinuo Yang and Ziang Li and Yejin Choi and Ranjay Krishna}, year={2025}, eprint={2506.04633}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.04633}, }

相关资源

搜集汇总

数据集介绍

构建方式

STARE数据集通过精心设计的视觉和文本提示，构建了一个多层次的空间认知评估框架。该数据集涵盖了从基础几何变换（2D和3D）到复杂任务（立方体网折叠和七巧板拼图）以及真实世界空间推理场景（时间帧和透视推理）的广泛内容。每个任务以选择题或是非题形式呈现，共包含约4K个实例，确保了评估的全面性和多样性。

特点

STARE数据集以其多层次的空间认知任务著称，从简单的2D变换到复杂的3D推理，任务难度梯度明显。数据集特别设计了视觉模拟任务，如立方体网折叠，以揭示空间推理的挑战性。模型在该数据集上的表现差异显著，2D任务准确率最高可达87.7%，而3D和多步推理任务则接近随机猜测，凸显了空间认知的复杂性。人类参与者在所有任务中均优于模型，验证了数据集的挑战性。

使用方法

STARE数据集可通过Hugging Face平台直接下载，使用`load_dataset`函数即可加载特定任务数据，如立方体网折叠。数据集以jsonl格式提供，包含问题ID、问题文本、正确答案、相关图像及问题类别等信息。评估时，支持开源模型（如Qwen2-VL、InternVL）和闭源模型（如GPT、Gemini）的响应生成，通过配置相应参数即可进行推理。最终，执行计算脚本可得到整体及各任务的准确率评估。

背景与挑战

背景概述

STARE数据集由Linjie Li等研究人员于2025年提出，旨在评估多模态模型在视觉模拟中的空间认知能力。该数据集由Kuvvi机构发布，涵盖了从基础几何变换到复杂现实场景的多种空间推理任务，包含约4K个实例。通过精心设计的视觉和文本提示，STARE为研究多模态模型在空间推理方面的性能提供了标准化评估框架，对计算机视觉和人工智能领域的发展具有重要影响。

当前挑战

STARE数据集面临的挑战主要体现在两个方面：在领域问题方面，多模态模型在复杂3D任务和多步推理（如立方体展开图和七巧板）中的表现显著下降，准确率接近随机猜测，揭示了当前模型在空间认知能力上的局限性；在构建过程中，设计涵盖不同复杂度层次的多样化空间推理任务，并确保视觉和文本提示的准确性和一致性，是一项极具挑战性的工作。

常用场景

经典使用场景

STARE数据集在空间认知评估领域具有显著的应用价值，尤其在多模态模型的视觉模拟测试中表现出色。该数据集通过精心设计的几何变换、立方体网络折叠和拼图等任务，全面覆盖了从基础到复杂的空间推理场景。研究人员利用STARE能够系统地评估模型在不同难度层次上的表现，从而揭示模型在空间认知方面的局限性。

实际应用

在教育科技领域，STARE数据集可应用于智能辅导系统的开发，通过分析学习者在空间推理任务中的表现，提供个性化训练方案。在机器人导航领域，该数据集有助于提升机器对三维环境的理解能力，优化路径规划算法。工业设计领域则可借助STARE的评估结果，改进CAD软件中的人机交互体验。

衍生相关工作

基于STARE的基准测试，研究者已开发出针对视觉-语言模型的增强训练策略，如结合视觉模拟的思维链推理方法。该数据集还催生了多个专注于空间认知的子任务研究，包括立方体展开图预测、视角转换分析等。相关成果发表在计算机视觉与人工智能顶级会议，推动了空间推理专用模型架构的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集