GeoSense

Hugging Face2025-05-09 更新2025-05-10 收录

下载链接：

https://huggingface.co/datasets/OpenStellarTeam/GeoSense

下载链接

链接失效反馈

官方服务：

资源简介：

GeoSense是一个全面的双语基准数据集，旨在通过几何原理的视角系统地评估大型多模态语言模型的几何推理能力。它包含一个五级层次的几何原理框架，涵盖平面和立体几何；一个包含1,789个问题的详细注释数据集；以及一个创新的评估策略。

GeoSense is a comprehensive bilingual benchmark dataset designed to systematically evaluate the geometric reasoning capabilities of large multimodal language models through the lens of geometric principles. It encompasses a five-level hierarchical framework of geometric principles covering both planar and solid geometry, a meticulously annotated dataset containing 1,789 questions, and an innovative evaluation strategy.

创建时间：

2025-05-09

搜集汇总

数据集介绍

构建方式

在几何推理评估领域，GeoSense数据集的构建过程体现了严谨的学术规范。该数据集由23名几何学专业研究生团队通过多轮标注与质量控制完成，覆盖148个几何原理的1,789道高质量题目。每个问题均经过双语标注，包含5,556条几何原理与图示元素的对应关系，并采用特殊标签标注解题关键点，形成从平面几何到立体几何的完整知识体系。

特点

GeoSense数据集的核心特征在于其创新的五层几何原理分级框架，涵盖65个定义、47个定理和36个计算公式。该框架通过几何原理识别（GPI）与应用（GPA）双维度评估指标，实现对多模态大模型几何推理能力的细粒度评估。其双语标注体系与原理-图示对应机制，为几何认知研究提供了多维度的分析基础。

使用方法

该数据集的使用遵循标准化评估流程，研究者可通过官网获取完整数据集与评估代码。评估时需重点关注模型在复杂视觉场景中识别几何原理的能力，利用GPI/GPA指标分析原理应用效果。数据集支持中英双语测试，建议结合官方提供的分级框架进行跨维度性能对比，并通过持续更新的排行榜跟踪领域进展。

背景与挑战

背景概述

几何推理作为多模态大语言模型能力评估的关键维度，GeoSense数据集于2025年由OpenStellar团队构建，成为首个系统评估几何原理认知能力的双语基准。该数据集通过148个几何原理构建的五层知识层级框架，覆盖平面与立体几何的65个定义、47个定理及36个计算公式，为模型在复杂视觉场景中的知识识别与应用能力提供了细粒度评估标准。其严谨的构建流程由23名几何学专业研究生参与标注与质控，通过1789道高质量题目与5556条双语标注，推动了多模态推理研究向结构化知识理解方向的深化发展。

当前挑战

在几何问题求解领域，模型需突破视觉元素与抽象原理的关联障碍，GeoSense通过创新性评估指标GPI与GPA量化模型对几何原理的识别与应用能力，揭示其在多模态融合推理中的局限性。数据构建过程中面临几何原理体系化分类的复杂性，需平衡知识覆盖广度与标注一致性，同时双语标注要求克服几何术语在跨语言语境下的精确对齐，这些挑战共同塑造了该数据集在推动可解释性几何推理研究方面的独特价值。

常用场景

经典使用场景

在几何推理研究领域，GeoSense数据集作为首个双语基准测试工具，被广泛用于评估多模态大语言模型对平面与立体几何原理的识别与应用能力。其五层知识层级框架覆盖了148项几何原理，通过1789道精心标注的题目，系统检验模型从基础定义理解到复杂定理推导的完整认知链条。

衍生相关工作

基于该数据集构建的公开排行榜已催生多项创新研究，包括几何原理的向量化表示方法、跨模态注意力机制优化等。这些衍生工作正逐步形成几何认知计算的技术体系，为构建具备人类级几何思维能力的人工智能系统奠定理论基础。

数据集最近研究