five

GeoLaux

收藏
github2025-08-11 更新2025-08-12 收录
下载链接:
https://github.com/Candice-yu/GeoLaux
下载链接
链接失效反馈
官方服务:
资源简介:
GeoLaux是一个具有2,186个问题的具有挑战性的平面几何数据集。它展示了三个关键优势:(1) 长步骤:解决方案最多达到24步,远超之前基准的最大11步;(2) 独特的辅助线注释:GeoLaux是第一个也是唯一一个为几何问题中的辅助线构造方法提供完整、明确注释的基准;(3) 综合计算和证明问题:GeoLaux包含1,418个计算问题和768个证明问题。

GeoLaux is a challenging planar geometry dataset consisting of 2,186 questions. It features three core strengths: (1) Long solution steps: The maximum number of solution steps reaches 24, far exceeding the 11-step limit of prior benchmarks; (2) Unique auxiliary line annotations: GeoLaux is the first and only benchmark that provides complete and explicit annotations for the construction methods of auxiliary lines in geometry problems; (3) Integrated computational and proof problems: GeoLaux includes 1,418 computational problems and 768 proof problems.
创建时间:
2025-08-08
原始信息汇总

GeoLaux数据集概述

数据集基本信息

  • 名称:GeoLaux
  • 类型:平面几何问题数据集
  • 规模:2,186个问题
  • 子集:GeoLaux-mini(包含330个均匀抽样的问题)
  • 组成
    • 计算问题:1,418个
    • 证明问题:768个

核心特点

  1. 长步骤推理

    • 解决方案步骤数最高达24步
    • 显著超越先前基准数据集的最大11步限制
  2. 辅助线标注

    • 首个完整明确标注几何问题中辅助线构造方法的基准
    • 填补了先前工作的关键空白
  3. 问题类型整合

    • 同时包含计算和证明两类几何问题

评估框架

  • 五维度评估体系

    1. 答案正确性
    2. 过程正确性
    3. 过程质量
    4. 辅助线影响
    5. 错误类型
  • 核心指标

    • ACS(答案正确性得分)
    • PCS(过程正确性得分)
    • PQS(过程质量得分)
    • ΔPCS(跨步骤PCS相对下降百分比)

实验结果关键发现

  1. 长步骤推理表现差

    • 所有模型随步骤增加性能显著下降
    • 9个模型从短步到超长步问题性能下降超过50%
  2. 证明问题中的惰性

    • 相比计算问题,证明问题中模型展示更高答案正确性但更低过程正确性
    • 表明模型常利用给定结论而忽视推理步骤
  3. 辅助线构造困难

    • 模型难以构建复杂辅助线
    • 提供辅助线提示后几乎所有模型表现提升

使用许可

  • 许可证:MIT

引用信息

bibtex @misc{fu2025geolauxbenchmarkevaluatingmllms, title={GeoLaux: A Benchmark for Evaluating MLLMs Geometry Performance on Long-Step Problems Requiring Auxiliary Lines}, author={Yumeng Fu and Jiayin Zhu and Lingling Zhang and Bo Zhao and Shaoxuan Ma and Yushun Zhang and Yanrui Wu and Wenjun Wu}, year={2025}, eprint={2508.06226}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.06226}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在几何推理领域,GeoLaux数据集通过精心设计的构建流程实现了对多模态大语言模型的全面评估。该数据集收录了2,186道平面几何题目,涵盖计算题和证明题两大类型,其中包含1,418道计算题和768道证明题。构建过程中特别注重题目的步骤复杂度,最长达24步的解题过程远超同类数据集11步的上限。研究者采用系统化标注方法,首次完整标注了几何问题中的辅助线构造方式,为模型能力评估提供了关键维度。数据集通过均匀采样形成包含330道题目的GeoLaux-mini子集,便于快速验证模型性能。
特点
作为几何推理领域的专业评测基准,GeoLaux展现出三大核心特征。其阶梯式难度设计通过1-4步、5-8步、9-12步和13-24步四个层级,有效检验模型的长步骤推理能力。独特的辅助线标注体系完整记录了构造方法,填补了该领域的研究空白。数据集集成计算与证明双重题型,通过答案正确性得分(ACS)、过程正确性得分(PCS)和过程质量得分(PQS)三维度指标,全面评估模型的几何推理质量。实验数据表明,该基准能有效揭示模型在复杂几何问题中的性能衰减现象。
使用方法
该数据集采用标准化的五维评估框架进行操作使用。研究者首先通过专用脚本获取模型在GeoLaux上的解题过程,生成结构化JSON输出。随后调用评估器进行分步评分,默认使用o4-mini作为基准评估模型。系统自动分析错误类型并计算关键指标,包括不同步长区间的ACS/PCS值、平均得分以及ΔPCS变化率。评估流程支持通过修改API密钥适配不同闭源模型,所有操作均通过命令行参数实现,确保实验过程的可重复性。最终生成的度量结果可直接与论文报告数据进行对比分析。
背景与挑战
背景概述
GeoLaux数据集由Yumeng Fu等人于2024年发布,是首个专注于评估多模态大语言模型在平面几何长步骤推理任务中性能的基准测试集。该数据集包含2,186道几何题目,涵盖1,418道计算题和768道证明题,其显著特点是解题步骤最长可达24步,远超同类数据集11步的上限。研究团队创新性地标注了辅助线的构造方法,填补了几何问题求解领域的关键空白。作为几何推理领域的重要基准,GeoLaux为评估模型在复杂数学推理、空间认知和逻辑推导能力方面提供了标准化测试平台。
当前挑战
GeoLaux数据集面临的核心挑战体现在两个维度:在领域问题层面,现有模型在长步骤推理任务中表现欠佳,随着解题步骤增加,模型性能普遍下降超过50%;在构建技术层面,标注复杂的辅助线构造方法需要深厚的几何专业知识,确保标注的一致性和准确性存在较大难度。此外,数据集需要平衡计算题与证明题的比例,同时维持题目难度梯度,这对数据集的代表性和评估效度构成挑战。模型在证明题中表现出的'懒惰推理'现象,即依赖给定结论而忽视推导过程,也反映出几何问题求解的特殊复杂性。
常用场景
经典使用场景
在几何推理领域,GeoLaux数据集因其独特的长步骤问题和辅助线标注特性,成为评估多模态大语言模型(MLLMs)几何推理能力的黄金标准。该数据集通过包含多达24步的复杂几何问题,为研究者提供了一个测试模型在长序列推理中保持逻辑一致性的平台。其经典使用场景包括模型在解决需要构造辅助线的证明题时的性能评估,以及模型在计算题和证明题上的表现对比分析。
解决学术问题
GeoLaux数据集有效解决了几何推理研究中三个关键学术问题:长步骤推理的性能衰减问题、模型在证明题中的懒惰推理现象,以及辅助线构造能力的缺失问题。通过提供精确的辅助线标注和多维度评估指标,该数据集为理解MLLMs在复杂几何问题中的认知局限提供了实证基础,推动了几何推理领域的量化研究进展。
衍生相关工作
围绕GeoLaux数据集已衍生出多项重要研究工作,包括基于辅助线提示的模型增强方法、针对长步骤推理的专用评估框架开发,以及几何问题自动生成算法的改进。这些工作显著推进了MLLMs在数学推理领域的研究深度,其中部分成果已被整合到主流开源模型如o4-mini和Gemini-2.5-Pro的几何推理模块中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作