five

GeoLaux

收藏
arXiv2025-08-08 更新2025-08-12 收录
下载链接:
https://github.com/Candice-yu/GeoLaux
下载链接
链接失效反馈
官方服务:
资源简介:
GeoLaux是一个包含2186个平面几何问题的数据集,涵盖了计算和证明问题,平均每题需要6.51个推理步骤,最多可达24步。数据集中41.8%的问题需要辅助线构造。数据集由来自中国34个省级地区的高中入学考试数学试卷中的问题组成,并经过专家校对和详细标注。GeoLaux旨在评估多模态大型语言模型在解决长步骤几何推理问题时的能力,特别是在辅助线构造方面的能力。

GeoLaux is a dataset consisting of 2,186 planar geometry problems, encompassing both computational and proof-based questions. Each problem requires an average of 6.51 reasoning steps, with a maximum of 24 steps. Notably, 41.8% of the problems demand auxiliary line construction. The dataset is compiled from mathematics questions in high school entrance examination papers across 34 provincial-level administrative regions in China, and has undergone expert proofreading and detailed annotation. GeoLaux aims to assess the performance of multimodal large language models when solving long-step geometric reasoning tasks, especially their ability to perform auxiliary line construction.
提供机构:
西安交通大学计算机科学与技术学院
创建时间:
2025-08-08
原始信息汇总

GeoLaux数据集概述

数据集简介

  • 名称:GeoLaux
  • 类型:平面几何问题数据集
  • 规模:2,186个问题
  • 子集:GeoLaux-mini(包含330个均匀抽样的问题)
  • 特点
    • 长步骤推理:解决方案最多达24步
    • 辅助线标注:完整且明确标注几何问题中的辅助线构造方法
    • 问题类型:包含1,418个计算问题和768个证明问题

数据集优势

  1. 长步骤挑战:解决方案步骤远超同类数据集(最大24步 vs 先前最大11步)
  2. 辅助线标注:首个提供完整辅助线构造方法标注的基准
  3. 综合问题类型:集成计算和证明两类几何问题

评估框架

  • 五个维度评估: ① 答案正确性 ② 过程正确性 ③ 过程质量 ④ 辅助线影响 ⑤ 错误类型

实验结果

  • 关键指标
    • ACS(答案正确性分数)
    • PCS(过程正确性分数)
    • PQS(过程质量分数)
  • 主要发现
    1. 模型在长步骤推理上表现较差
    2. 模型在证明问题上表现出"懒惰"倾向
    3. 模型在辅助线构造方面存在困难

使用许可

  • 许可证:MIT

引用信息

bibtex @misc{fu2025geolauxbenchmarkevaluatingmllms, title={GeoLaux: A Benchmark for Evaluating MLLMs Geometry Performance on Long-Step Problems Requiring Auxiliary Lines}, author={Yumeng Fu and Jiayin Zhu and Lingling Zhang and Bo Zhao and Shaoxuan Ma and Yushun Zhang and Yanrui Wu and Wenjun Wu}, year={2025}, eprint={2508.06226}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.06226}, }

相关资源

  • 论文地址:https://arxiv.org/abs/2508.06226
搜集汇总
数据集介绍
main_image_url
构建方式
GeoLaux数据集的构建采用了半自动化的流程,分为数据采集、步骤分割和辅助线提取三个阶段。数据源来自中国34个省级行政区的中考数学试题,确保数据的真实性和全面性。每个问题都经过专家验证,确保图表清晰、图文对应、答案准确,并标注详细的解题过程。最终数据集包含2,186个几何问题,涵盖计算和证明两种类型,平均解题步骤为6.51步,最长可达24步。
特点
GeoLaux数据集的特点在于其长步骤推理和辅助线构造的标注。问题平均需要6.51步推理,41.8%的问题需要构造辅助线。数据集还提供了辅助线的构造方法和对应的几何图示,支持多模态学习。此外,数据集包含1,418个计算问题和768个证明问题,为评估多模态大语言模型在几何问题解决中的能力提供了全面的基准。
使用方法
使用GeoLaux数据集时,可以通过其五维评估框架全面评估模型的几何推理能力。评估包括答案正确性(ACS)、过程正确性(PCS)、过程质量(PQS)、辅助线构造影响和错误类型分类。用户可以将模型生成的解题过程与数据集提供的标准答案进行对比,利用评估器模型进行细粒度的评分和错误分析。此外,数据集还支持辅助线启发式评估,通过提供辅助线构造提示来测试模型的空间推理能力。
背景与挑战
背景概述
GeoLaux是由西安交通大学计算机科学与技术学院的研究团队于2025年提出的一个几何问题求解基准数据集,旨在评估多模态大语言模型(MLLMs)在需要辅助线的多步几何问题上的表现。该数据集包含2,186个几何问题,涵盖计算与证明两种类型,平均推理步骤为6.51步,最长可达24步,其中41.8%的问题需要构建辅助线。GeoLaux通过精细的步骤标注和辅助线构建方法,填补了现有几何评估基准在长步推理和辅助线评估方面的空白,为MLLMs的几何推理能力提供了全面的评估标准。
当前挑战
GeoLaux面临的挑战主要体现在两个方面:首先,在领域问题方面,该数据集旨在解决几何问题求解中的长步推理和辅助线构建问题,这对模型的逻辑推理、空间想象和知识应用能力提出了极高要求;其次,在构建过程中,研究人员需要克服数据收集、步骤分割和辅助线提取等难题,确保数据集的多样性和复杂性。此外,评估框架的设计也需兼顾答案正确性、过程正确性、过程质量、辅助线影响和错误类型分类等多个维度,以实现对MLLMs能力的全面评估。
常用场景
经典使用场景
在几何问题求解领域,GeoLaux数据集被广泛用于评估多模态大语言模型(MLLMs)在需要辅助线的多步几何问题上的表现。其典型应用场景包括模型的长步推理能力测试、辅助线构造技能的评估,以及几何证明与计算问题的综合性能分析。通过提供详细的步骤标注和辅助线信息,该数据集为研究者提供了一个全面评估模型几何推理能力的平台。
解决学术问题
GeoLaux数据集解决了当前几何问题求解研究中的三个关键问题:缺乏对辅助线构造能力的评估、长步推理能力的不足,以及过程评估的粗粒度性。通过引入包含复杂辅助线构造和长步推理的问题,该数据集填补了现有基准在这些方面的空白,为研究者提供了更全面的模型评估工具。其五维评估框架(答案正确性、过程正确性、过程质量、辅助线影响和错误类型分类)显著提升了评估的精细度和科学性。
衍生相关工作
GeoLaux数据集催生了一系列相关研究工作,特别是在几何问题求解领域。基于该数据集,研究者开发了多种增强MLLMs几何推理能力的方法,包括辅助线提示策略、过程质量优化算法等。该数据集也被用于比较不同模型架构(如思维模型与非思维模型)在几何问题上的表现差异,推动了模型架构的改进。此外,其评估框架被扩展到其他数学推理领域,如代数问题求解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作