GeoGramBench

Name: GeoGramBench
Creator: Li Auto
Published: 2025-05-23 17:17:07
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/LiAutoDSR/GeoGramBench

下载链接

链接失效反馈

官方服务：

资源简介：

GeoGramBench是一个包含500个精心筛选的问题的数据集，这些问题结合了程序绘制代码，旨在系统地评估大型语言模型（LLMs）在空间几何抽象能力方面的数学推理能力。数据集根据程序代码中编码的几何复杂性，而不是传统的数学推理复杂性，组织成一个定制的三级分类法。通过对17个前沿LLMs的全面评估，发现即使在最高抽象级别，即使是最高级的模型也达不到50%的准确率。这些结果表明，程序驱动的空间推理具有独特的挑战性，并将GeoGramBench确立为推动符号到空间几何推理研究的宝贵资源。

GeoGramBench is a dataset consisting of 500 carefully curated questions paired with programmatic drawing code, designed to systematically evaluate the mathematical reasoning capabilities of Large Language Models (LLMs) in terms of spatial geometric abstraction. The dataset is organized into a custom three-level taxonomy based on the geometric complexity encoded in its accompanying program code, rather than conventional mathematical reasoning complexity. A comprehensive evaluation across 17 state-of-the-art LLMs reveals that even the most advanced models fail to achieve 50% accuracy, even at the highest abstraction level. These findings demonstrate that program-driven spatial reasoning is uniquely challenging, establishing GeoGramBench as a valuable resource for advancing research on symbolic-to-spatial geometric reasoning.

提供机构：

Li Auto

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

GeoGramBench数据集的构建过程体现了严谨的科学方法论与精细的人工干预相结合。研究团队首先从三个开源数学数据集（NuminaMath-1.5、HARP和Omni-MATH）中筛选出包含Asymptote绘图代码的几何问题，通过n-gram去重和GPT-4o辅助分类获得初始候选集。随后采用两阶段专家验证流程：第一阶段进行问题类型标准化和格式统一，剔除非相关题目；第二阶段实施三重净化措施——通过问题重述消除文本推断线索，坐标重缩放防止答案泄漏，以及人工验证答案正确性。最终通过补充AIME24、MATH-500的几何题项，并手动将MathVerse的立体几何问题转化为matplotlib代码，构建出包含500个问题的基准集。整个流程特别设计了针对程序化几何代码中答案泄漏问题的防控机制，包括坐标系统参数化调整和关键代码掩码技术，确保评估的公正性。

使用方法

使用GeoGramBench时需要遵循严格的评估协议以确保结果可比性。对于开源模型采用标准化评估框架，闭源模型则通过官方API调用，统一使用包含分步推理指令的提示模板（如“Let's think step by step”）。每个问题在零样本设置下生成8次响应（温度参数0.6），最终准确率取平均值以平衡模型随机性。研究建议重点关注模型在三层级分类体系中的表现差异：在基础层级可评估几何元素解析能力，中间层级检验局部空间关系建模，最高层级则测试全局几何结构的抽象整合。对于进阶分析，可结合模型的链式推理（CoT）过程，观察其从代码解析到空间表征构建的中间步骤，这有助于诊断模型在符号-空间转换过程中的具体瓶颈。数据集配套提供的坐标变换工具和泄漏检测脚本可辅助研究者进行定制化分析。

背景与挑战

背景概述

GeoGramBench是由Li Auto的研究团队于2025年提出的一个专注于评估大型语言模型（LLMs）在几何空间推理能力的数据集。该数据集由500个经过精心筛选的几何问题组成，这些问题通过程序化绘图代码（如Asymptote代码）表达几何图形，旨在测试模型从符号代码到空间表示的转换与推理能力。GeoGramBench的创建填补了当前评估LLMs在程序驱动的空间几何推理能力方面的空白，为相关领域的研究提供了重要的基准工具。该数据集通过三级分类体系（基本元素识别、局部关系组合和全局抽象整合）系统评估模型在不同几何复杂度下的表现，揭示了现有模型在高级几何推理任务中的显著不足。

当前挑战

GeoGramBench面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决LLMs在从程序化绘图代码到几何空间推理转换中的核心难题，即模型如何准确解析代码中的几何元素并构建内部空间表示以进行后续推理。现有模型即使在最高抽象级别上的准确率也不足50%，显示出这一任务的独特难度。在构建过程方面，研究团队面临的主要挑战包括：1）答案泄露问题，即程序代码中可能直接或间接包含问题答案；2）数据质量控制，需要通过多轮人工验证确保几何问题的准确性和适切性；3）问题分类体系的建立，需要设计基于几何复杂度而非传统推理难度的新型分类标准。这些挑战使得构建一个可靠且具有区分度的几何推理基准变得尤为复杂。

常用场景

经典使用场景

GeoGramBench数据集主要用于评估大型语言模型（LLMs）在程序到几何任务中的表现，即模型如何将程序化的绘图代码转换为准确的几何推理。该数据集通过精心设计的500个几何问题，涵盖了从基本几何元素识别到全局抽象集成的多个难度层次，为研究者提供了一个系统化的评估工具。

解决学术问题

GeoGramBench解决了当前LLMs在几何空间推理能力评估方面的空白。通过Formalizing Program-to-Geometry任务，该数据集不仅评估了模型对程序化绘图代码的理解能力，还深入探究了模型在几何推理和空间抽象方面的表现。这一工作填补了现有基准测试在程序驱动空间几何推理评估上的不足，为相关研究提供了重要参考。

实际应用

在实际应用中，GeoGramBench可用于评估和改进LLMs在自动化设计、机器人导航和计算机辅助教育等领域的几何推理能力。例如，在自动化设计系统中，模型需要准确理解设计代码并生成相应的几何图形；在教育领域，该数据集可以帮助开发更智能的几何学习辅助工具，提升学生的空间思维能力。

数据集最近研究