GeoEval

Name: GeoEval
Creator: 中国科学院自动化研究所
Published: 2024-05-17 19:42:09
License: 暂无描述

arXiv2024-05-17 更新2024-06-21 收录

下载链接：

https://github.com/GeoEval/GeoEval

下载链接

链接失效反馈

官方服务：

资源简介：

GeoEval是由中国科学院自动化研究所开发的综合性几何问题解决评估数据集，包含2000个主要问题集、750个反向推理问题集、2000个增强问题集和300个难题集。该数据集涵盖平面几何、立体几何和解析几何等多种类型，支持文本和图形双输入，旨在全面评估大型语言模型和多模态模型在解决几何数学问题上的能力。数据集通过不同难度级别的复杂度评级，为模型性能的精细分析提供了坚实框架。

GeoEval is a comprehensive geometric problem-solving evaluation dataset developed by the Institute of Automation, Chinese Academy of Sciences. It comprises four subsets: 2000 main problem sets, 750 inverse reasoning problem sets, 2000 augmented problem sets, and 300 challenging problem sets. Covering multiple geometry categories including plane geometry, solid geometry and analytic geometry, the dataset supports dual inputs of text and graphics. It is designed to comprehensively evaluate the problem-solving capabilities of large language models (LLMs) and multimodal models for geometric mathematical problems. By adopting complexity ratings across different difficulty levels, it provides a robust framework for fine-grained analysis of model performance.

提供机构：

中国科学院自动化研究所

创建时间：

2024-02-16

搜集汇总

数据集介绍

构建方式

在几何问题求解领域，现有数据集常因格式不一与多样性不足而难以全面评估模型能力。GeoEval基准的构建旨在弥补这一空白，其核心子集GeoEval-2000通过整合七个公开数据集（如Geometry3K、PGPS9K等）中的几何问题，并依据基本几何形状的覆盖范围进行筛选，最终收录了2000道题目。为深入探究模型的反向推理能力，研究团队从GeoEval-2000中选取750道题目，通过掩码关键数值并重构问题陈述，生成了专注于逆向思维的GeoEval-backward子集。为应对模型在预训练阶段可能遭遇的数据泄露风险，团队利用GPT-3.5对GeoEval-2000中的每道题目进行语义不变的重述，随机选取一种变体构建了包含2000道题目的GeoEval-aug子集。此外，为增强数据在立体几何与解析几何等薄弱领域的代表性，团队通过基于规则的引擎从自有题库中初筛，再经人工严格审查，最终形成了包含300道高难度题目的GeoEval-hard子集，从而构成了一个总计5050道题目的多层次评估体系。

使用方法

GeoEval基准主要用于评估大型语言模型与多模态模型在解决几何数学问题上的性能。在使用时，评估者可根据研究目标选取相应的子集。例如，若需评估模型在常见几何问题上的基础能力，可选用GeoEval-2000子集；若关注模型的反向推理或抗数据泄露能力，则可分别使用GeoEval-backward或GeoEval-aug子集。对于输入，纯文本模型可直接处理问题描述，而多模态模型则需要同时接收文本描述与对应的几何图形。在评估过程中，通常采用零样本提示策略，将问题文本、可能的图表描述以及选项列表整合后输入模型，引导其生成解答。答案提取环节结合了基于GPT-4的语义提取与精心设计的正则表达式匹配，以确保从模型生成的、格式多样的回答中准确抽取出目标数值或选项字母，最终通过与标准答案比对来计算准确率。该基准为模型在几何推理这一复杂任务上的能力提供了标准化、多维度的量化评估框架。

背景与挑战

背景概述

几何数学问题求解是评估K-12学生数学推理能力的关键组成部分，也是衡量人工智能模型复杂推理水平的重要领域。随着大语言模型和多模态模型的迅猛发展，其在解决需要融合文本与视觉信息的几何问题上的能力尚未得到系统评估。为此，中国科学院大学与斯特拉斯克莱德大学的研究团队于2024年联合推出了GeoEval基准数据集。该数据集旨在填补现有几何问题数据集在格式标准化与问题多样性方面的不足，通过整合七个公开数据集并创建新的子集，构建了一个包含平面几何、立体几何与解析几何的综合性评估框架，为核心研究问题——即系统评估大模型在几何问题解决中的综合能力——提供了重要工具，对推动数学推理人工智能的发展具有显著影响力。

当前挑战

GeoEval数据集致力于解决的领域核心挑战在于几何数学问题的自动求解，这要求模型同时具备文本理解、视觉信息解析与多步数学推理的复杂能力。现有模型在此类任务上表现不佳，凸显了评估基准的必要性。在数据集构建过程中，研究团队面临多重具体挑战：首先，需从多样化的公开数据源中收集并统一格式化问题，确保涵盖广泛的几何形状与问题类型；其次，为应对模型在预训练阶段可能的数据泄露问题，需创新性地生成逆向推理、数据增强及高难度子集，以测试模型在未见分布上的泛化能力；此外，为立体几何与解析几何等薄弱领域构建高质量、具有挑战性的样本，也涉及复杂的数据筛选与人工审核流程。

常用场景

经典使用场景

在几何问题求解领域，GeoEval数据集作为一项综合性基准测试，其经典使用场景在于系统评估大型语言模型与多模态模型在解析几何数学问题时的综合能力。该数据集通过整合平面几何、立体几何与解析几何三大类问题，并辅以图文双模态输入，为研究者提供了一个标准化的测试平台，用以检验模型在融合文本理解与视觉信息处理方面的表现。

解决学术问题

GeoEval数据集有效解决了几何智能推理领域长期存在的若干学术问题。它通过构建包含逆向推理、增强重构与高难度子集的多样化挑战，显著缓解了模型因预训练数据泄露导致的评估偏差问题。该数据集为量化分析模型在复杂几何情境下的多步推理能力提供了可靠依据，推动了面向数学专长模型的训练范式研究，并揭示了图文协同理解在几何问题求解中的关键作用。

实际应用

在实际应用层面，GeoEval数据集为智能教育辅助系统的开发提供了重要的评估基础。基于该数据集训练的模型能够应用于K-12几何教学场景，实现自动化解题辅导与能力评估。其在逆向推理与增强子集上的测试结果，为构建具备强泛化能力的教育人工智能工具提供了技术路径，同时为多模态模型在科学可视化问答、工程制图解析等专业领域的落地提供了性能参照。

数据集最近研究