GIQ

Name: GIQ
Creator: 莱斯大学
Published: 2025-06-10 04:11:21
License: 暂无描述

arXiv2025-06-10 更新2025-06-12 收录

下载链接：

https://arxiv.org/pdf/2506.08194.pdf

下载链接

链接失效反馈

官方服务：

资源简介：

GIQ数据集是一套旨在评估视觉和视觉-语言基础模型几何推理能力的综合基准。该数据集包含了224个多样化的多面体图像，包括柏拉图、阿基米德、约翰逊和卡塔兰固体，以及星形和复合形状，涵盖了不同的复杂性和对称性。数据集包括模拟和真实世界图像，从多个视角捕获，以评估模型对对称性的识别、从单张图像中重建复杂几何形状的能力，以及在不同视角和真实世界条件下准确推理形状等价性的能力。GIQ数据集的创建过程涉及使用Mitsuba物理渲染器生成模拟多面体，以及从纸张构建物理模型并在各种室内外环境中拍摄。该数据集为诊断和提升视觉系统中的几何智能提供了一个有针对性的基准，为未来改进空间感知和3D感知视觉推理奠定了基础。

The GIQ dataset is a comprehensive benchmark designed to evaluate the geometric reasoning capabilities of visual and vision-language foundation models. This dataset includes 224 diverse polyhedral images, covering Platonic, Archimedean, Johnson, and Catalan solids, as well as star-shaped and compound shapes, which span varying levels of complexity and symmetry. The dataset comprises both simulated and real-world images captured from multiple viewpoints, to assess models' abilities to recognize symmetry, reconstruct complex geometric shapes from a single image, and accurately reason about shape equivalence across different viewpoints and real-world conditions. The creation of the GIQ dataset involved using the Mitsuba physically based renderer to generate simulated polyhedra, as well as constructing physical models from paper and photographing them across various indoor and outdoor environments. This dataset provides a targeted benchmark for diagnosing and enhancing geometric intelligence in visual systems, laying a foundation for future improvements to spatial awareness and 3D-aware visual reasoning.

提供机构：

莱斯大学

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

GIQ数据集通过精心设计的合成与真实图像采集流程构建而成。在合成数据方面，研究团队利用Mitsuba物理渲染引擎，从20个均匀分布的视角对224种多面体进行高质量渲染，确保光照条件和材质属性的一致性。真实数据采集则采用手工制作的纸质多面体模型，通过专业单反相机在室内外多样化环境中拍摄，涵盖不同光照条件和背景复杂度，最终形成包含4480张合成图像和8960张真实图像的综合性数据集。

特点

GIQ数据集的核心价值在于其系统性的几何复杂性编排，涵盖柏拉图立体、阿基米德立体、约翰逊立体等7大类224种多面体，构成从简单凸多面体到复杂星形化合物的完整谱系。数据集特别强调三维对称性标注，为每类多面体精确标注中心点反射对称、4/5重旋转对称等几何属性，同时提供多视角图像对以支持心理旋转测试。这种基于经典几何学的严谨设计，使GIQ成为评估模型几何推理能力的理想基准。

使用方法

该数据集支持四种核心评估范式：单目三维重建任务测试模型从二维图像推断三维结构的能力；三维对称性检测通过线性探针分析模型嵌入空间的几何表征；心理旋转测试评估模型的空间变换推理能力；零样本分类则考察视觉语言模型对多面体几何特性的理解。研究者可通过标准化流程加载数据集，利用提供的视角标注、对称性标签和形状类别信息，系统评估模型在不同几何复杂度下的表现差异。

背景与挑战

背景概述

GIQ数据集由Rice University等机构的研究团队于2025年提出，旨在系统评估视觉基础模型在三维几何推理方面的能力。该数据集包含224种多样化的多面体，涵盖柏拉图立体、阿基米德立体、约翰逊立体等经典几何形状，通过合成渲染和真实拍摄两种方式构建。作为首个专注于多面体几何理解的基准测试，GIQ填补了现有3D数据集在精细几何属性标注方面的空白，为研究视觉模型的几何感知能力提供了结构化评估平台。其创新性地将数学几何理论与计算机视觉评估相结合，延续了从柏拉图到欧拉等数学家对多面体的研究传统，对推动几何智能发展具有重要意义。

当前挑战

GIQ数据集面临的挑战主要体现在两个方面：在解决领域问题方面，当前最先进的单目3D重建方法难以准确重建基本几何形状，视觉语言模型在复杂多面体分类任务中表现出系统性错误；在构建过程中，真实多面体的手工制作耗时长达数月，且需保证摄影环境的光照、背景多样性。具体挑战包括：模型对非凸多面体和复合结构的识别准确率低下，对称性检测任务中合成数据与真实数据的性能差异显著，以及心理旋转测试中模型对几何相似形状的区分能力接近随机水平。这些挑战暴露出当前视觉基础模型在几何理解方面的本质缺陷。

常用场景

经典使用场景

GIQ数据集作为评估视觉基础模型在3D几何推理能力方面的基准，广泛应用于单目3D重建、3D对称性检测、心理旋转测试以及零样本形状分类任务。通过合成和真实世界的多面体图像，该数据集为研究模型在复杂几何结构上的表现提供了系统化的评估框架。

实际应用

在实际应用中，GIQ数据集可用于机器人视觉、增强现实（AR）和虚拟现实（VR）等领域，帮助开发更精确的3D物体识别和重建算法。例如，机器人可以通过训练在CAD模型上的视觉系统，利用GIQ数据集在非结构化环境中准确定位具有匹配几何属性的物理对象。

衍生相关工作

GIQ数据集衍生了多项经典工作，包括对CLIP、DINOv2等视觉基础模型的几何推理能力评估，以及单目3D重建算法（如Shap-E、Stable Fast 3D和OpenLRM）的性能分析。这些研究进一步推动了3D感知和几何表示学习领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集