five

STARE

收藏
github2025-06-06 更新2025-06-07 收录
下载链接:
https://github.com/STARE-bench/STARE
下载链接
链接失效反馈
官方服务:
资源简介:
STARE旨在全面覆盖多层次的空间推理,从基本的几何变换(2D和3D)到更综合的任务(立方体网络折叠和七巧板拼图)以及真实世界的空间推理场景(时间帧和透视推理)。每个任务都以多项选择或是否问题的形式呈现,使用精心设计的视觉和文本提示。数据集总共包含约4K实例,涵盖不同的评估设置。

STARE is designed to comprehensively cover multi-level spatial reasoning, ranging from basic geometric transformations (2D and 3D) to more complex tasks such as cube network folding and tangram puzzles, as well as real-world spatial reasoning scenarios including temporal frame and perspective reasoning. Each task is presented in the form of multiple-choice questions or yes/no questions, utilizing meticulously crafted visual and textual prompts. The dataset contains approximately 4K instances, covering various evaluation settings.
创建时间:
2025-05-11
原始信息汇总

STARE数据集概述

数据集简介

  • 名称:STARE (Spatial Reasoning Evaluation)
  • 目的:评估多模态模型在视觉模拟中的空间推理能力
  • 特点
    • 涵盖多层次空间认知任务
    • 包含约4K个实例
    • 采用多选题或是非题形式

任务类型

  1. 基础几何变换(2D和3D)
  2. 综合任务(立方体网折叠和七巧板拼图)
  3. 真实世界空间推理场景(时间帧和视角推理)

数据格式

json { "pid": "问题ID", "question": "问题文本", "answer": "正确答案", "images": "所需图像列表", "other_info": "附加信息", "category": "问题类别" }

获取方式

python from datasets import load_dataset dataset = load_dataset("kuvvi/STARE", "folding_nets", split="test")

评估支持

  • 开源模型:Qwen2-VL, InternVL, LLaVA等
  • 闭源模型:GPT, Gemini, Claude等

引用信息

bibtex @misc{li2025unfoldingspatialcognitionevaluating, title={Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations}, author={Linjie Li and Mahtab Bigverdi and Jiawei Gu and Zixian Ma and Yinuo Yang and Ziang Li and Yejin Choi and Ranjay Krishna}, year={2025}, eprint={2506.04633}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.04633}, }

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
STARE数据集通过精心设计的视觉和文本提示,构建了一个多层次的空间认知评估框架。该数据集涵盖了从基础几何变换(2D和3D)到复杂任务(立方体网折叠和七巧板拼图)以及真实世界空间推理场景(时间帧和透视推理)的广泛内容。每个任务以选择题或是非题形式呈现,共包含约4K个实例,确保了评估的全面性和多样性。
特点
STARE数据集以其多层次的空间认知任务著称,从简单的2D变换到复杂的3D推理,任务难度梯度明显。数据集特别设计了视觉模拟任务,如立方体网折叠,以揭示空间推理的挑战性。模型在该数据集上的表现差异显著,2D任务准确率最高可达87.7%,而3D和多步推理任务则接近随机猜测,凸显了空间认知的复杂性。人类参与者在所有任务中均优于模型,验证了数据集的挑战性。
使用方法
STARE数据集可通过Hugging Face平台直接下载,使用`load_dataset`函数即可加载特定任务数据,如立方体网折叠。数据集以jsonl格式提供,包含问题ID、问题文本、正确答案、相关图像及问题类别等信息。评估时,支持开源模型(如Qwen2-VL、InternVL)和闭源模型(如GPT、Gemini)的响应生成,通过配置相应参数即可进行推理。最终,执行计算脚本可得到整体及各任务的准确率评估。
背景与挑战
背景概述
STARE数据集由Linjie Li等研究人员于2025年提出,旨在评估多模态模型在视觉模拟中的空间认知能力。该数据集由Kuvvi机构发布,涵盖了从基础几何变换到复杂现实场景的多种空间推理任务,包含约4K个实例。通过精心设计的视觉和文本提示,STARE为研究多模态模型在空间推理方面的性能提供了标准化评估框架,对计算机视觉和人工智能领域的发展具有重要影响。
当前挑战
STARE数据集面临的挑战主要体现在两个方面:在领域问题方面,多模态模型在复杂3D任务和多步推理(如立方体展开图和七巧板)中的表现显著下降,准确率接近随机猜测,揭示了当前模型在空间认知能力上的局限性;在构建过程中,设计涵盖不同复杂度层次的多样化空间推理任务,并确保视觉和文本提示的准确性和一致性,是一项极具挑战性的工作。
常用场景
经典使用场景
STARE数据集在空间认知评估领域具有显著的应用价值,尤其在多模态模型的视觉模拟测试中表现出色。该数据集通过精心设计的几何变换、立方体网络折叠和拼图等任务,全面覆盖了从基础到复杂的空间推理场景。研究人员利用STARE能够系统地评估模型在不同难度层次上的表现,从而揭示模型在空间认知方面的局限性。
实际应用
在教育科技领域,STARE数据集可应用于智能辅导系统的开发,通过分析学习者在空间推理任务中的表现,提供个性化训练方案。在机器人导航领域,该数据集有助于提升机器对三维环境的理解能力,优化路径规划算法。工业设计领域则可借助STARE的评估结果,改进CAD软件中的人机交互体验。
衍生相关工作
基于STARE的基准测试,研究者已开发出针对视觉-语言模型的增强训练策略,如结合视觉模拟的思维链推理方法。该数据集还催生了多个专注于空间认知的子任务研究,包括立方体展开图预测、视角转换分析等。相关成果发表在计算机视觉与人工智能顶级会议,推动了空间推理专用模型架构的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作