AlgGeoTest
收藏arXiv2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/PKU-DS-LAB/AlgGeoTest
下载链接
链接失效反馈官方服务:
资源简介:
AlgGeoTest 是一个用于评估大型语言模型在代数几何领域理解能力的基准数据集。它包含 456 个挑战性的项目,每个项目都提供六个是非判断子问题,其中恰好有两个子问题是正确的,其余四个是精心设计的干扰项。这个数据集是通过 Proof2Hybrid 框架自动合成的,该框架能够将数学证明转换为各种易于验证的问题类型。
AlgGeoTest is a benchmark dataset for evaluating the comprehension capabilities of large language models (LLMs) in the field of algebraic geometry. It includes 456 challenging items, each of which provides six true-false sub-questions. Exactly two of the sub-questions are correct, while the remaining four are carefully designed distractors. This dataset was automatically synthesized through the Proof2Hybrid framework, which can convert mathematical proofs into various easily verifiable question types.
提供机构:
北京大学和哥伦比亚大学
创建时间:
2025-08-04
原始信息汇总
AlgGeoTest 数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语 (en)
- 任务类别: 问答 (question-answering)
- 规模类别: 小于1K (n<1K)
- 标签: 数学 (mathematics)
引用信息
- 论文链接: https://arxiv.org/abs/2508.02208
数据集描述
AlgGeoTest 是首个专门用于评估大语言模型对代数几何理解的基准数据集。代数几何是现代数学的前沿领域,在当代数学中占据核心地位。
关键特性
- 以证明为中心: 问题基于数学证明或定义,通常难以判断。
- 全自动化生成: 使用全自动化框架 Proof2Hybrid 创建,保证规模可扩展。
- 自然语言来源: 完全源自自然数学语料库,无需人工标注。
数据集特点
- 包含456个精心设计的英语问题。
- 每个问题包含6个选项:
- 4个数学上正确
- 2个数学上不正确
- 采用混合格式设计,防止LLMs通过比较选项来破解正确答案,并减轻不同LLMs对数学正确性标准可能存在的偏差。
数据集结构
每个条目包含以下字段:
- 选项: A、B、C、D、E、F六个选项
- 答案: 正确答案字段
每个选项为包含以下字段的字典:
- tag: 该选项在The Stacks项目中的标签
- type: 选项类型(definition或proposition)
- proposition: 命题-证明对中的命题(仅当类型为proposition时存在)
- text: 定义(类型为definition时)或证明(类型为proposition时)
- ground_truth: 该选项在数学上是否正确
数据格式
数据集以JSONL格式提供,每行一个条目。
实验结果
包含评估结果图表:figures/eval_results.jpg
搜集汇总
数据集介绍

构建方式
AlgGeoTest数据集的构建采用了Proof2Hybrid框架,这是一种全自动化的方法,旨在从自然语言数学语料库中合成高质量、以证明为中心的问题。该框架的核心是Proof2X路线图,能够将数学证明转换为易于验证的多种问题类型。通过精心设计的生成和验证流程,确保了数据集的高质量和多样性。具体构建过程中,首先从开源代数几何教材中筛选种子项目,随后利用先进的LLM生成干扰项,并通过多阶段的过滤机制确保每个问题的数学严谨性和逻辑一致性。
使用方法
AlgGeoTest数据集的使用方法主要包括生成式评估和困惑度评估两种协议。在生成式评估中,模型需要判断给定命题及其证明的正确性,并根据约束条件选择正确的答案。困惑度评估则适用于基础模型,通过计算每个选项的困惑度来选择最佳答案。评估过程中采用了宽松和严格两种评分标准,以全面衡量模型的性能。此外,数据集还支持对模型在代数几何领域的深入分析,揭示了当前先进LLM在该领域的理解缺陷,为未来的模型优化和研究提供了重要参考。
背景与挑战
背景概述
AlgGeoTest是由北京大学和哥伦比亚大学的研究团队于2025年提出的一个专注于代数几何领域的数学基准测试数据集。该数据集基于开源代数几何教材《The Stacks project》,通过Proof2Hybrid框架自动生成了456个具有挑战性的题目。代数几何作为现代数学的前沿领域,其复杂的理论结构和抽象性使得评估大型语言模型在该领域的理解能力成为一项重要而困难的任务。AlgGeoTest的创建填补了现有数学基准测试在证明类问题评估上的空白,为深入理解AI的数学推理能力提供了新的研究工具。
当前挑战
AlgGeoTest面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,代数几何问题通常涉及复杂的理论证明和抽象概念,这使得传统基于数值计算的评估方法难以适用。数据集需要解决如何准确评估模型对证明过程的理解能力这一核心问题。在构建过程中,主要挑战包括:1)如何自动生成具有数学意义的干扰项(distractors);2)如何确保生成的题目既具有挑战性又保持数学正确性;3)如何设计评估指标以区分模型的真实数学能力和简单的模式匹配。此外,数据集还需要克服不同模型对数学正确性判断标准不一致的问题。
常用场景
经典使用场景
AlgGeoTest数据集专为评估大型语言模型(LLM)在代数几何领域的数学推理能力而设计。代数几何作为现代数学的前沿领域,其复杂的理论结构和抽象概念对模型的逻辑推理和证明能力提出了极高要求。该数据集通过自动生成的混合格式问题(如“m-out-of-n多重判断题”),系统性地测试模型对数学命题和证明的理解深度,尤其擅长揭示模型在识别微妙逻辑缺陷方面的局限性。
解决学术问题
该数据集有效解决了当前数学评估领域的两个关键问题:一是传统评测基准过度依赖数值计算类问题,难以衡量模型对证明类问题的理解;二是人工构建数学基准的高成本和低扩展性。通过Proof2Hybrid框架自动转换数学证明为可验证问题,AlgGeoTest以标准化方式评估模型对前沿数学概念的掌握程度,为比较不同模型的数学推理能力提供了客观依据。其创新性的评估方法填补了复杂数学领域系统性评估工具的空白。
实际应用
在实际应用中,AlgGeoTest被广泛用于指导语言模型的数学能力优化。教育科技公司利用该基准诊断模型在高等数学领域的知识盲区,针对性调整训练数据;研究机构则通过其细粒度评估结果,分析不同架构模型(如推理增强型与基础型)在复杂逻辑任务中的表现差异。此外,该数据集支持自动评分的特点使其能无缝集成到持续集成流程中,为数学专用模型的迭代开发提供即时反馈。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在数学推理能力评估方面的需求日益增长,AlgGeoTest数据集的推出填补了现有基准测试在证明中心问题评估上的空白。该数据集通过Proof2Hybrid框架自动生成高质量的代数几何问题,采用创新的“m-out-of-n多重判断问题”格式,有效避免了传统选择题和判断题的局限性。AlgGeoTest不仅揭示了当前LLMs在代数几何领域的深刻理解缺陷,还为AI数学智能的深入研究提供了新的评估工具。其前沿性体现在自动化生成、可扩展性以及对复杂数学推理能力的精准测量,为数学与人工智能交叉领域的研究开辟了新方向。
相关研究论文
- 1Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems北京大学, 哥伦比亚大学 · 2025年
以上内容由遇见数据集搜集并总结生成



