FineMath

arXiv2024-03-12 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2403.07747v1

下载链接

链接失效反馈

官方服务：

资源简介：

FineMath是一个细粒度的数学评估基准数据集，用于评估中文大型语言模型的数学推理能力。该数据集覆盖了小学数学教学中的主要关键数学概念，并进一步细分为17类数学文字问题，以便深入分析大型语言模型的数学推理能力。所有17类数学文字问题都根据解决问题所需的推理步骤数量进行了手动标注难度级别。

FineMath is a fine-grained mathematical evaluation benchmark dataset developed to assess the mathematical reasoning capabilities of Chinese large language models. This dataset covers the core and key mathematical concepts taught in primary school mathematics curricula, and is further subdivided into 17 categories of mathematical word problems to enable in-depth analysis of the mathematical reasoning performance of large language models. All 17 categories of mathematical word problems have been manually annotated with difficulty levels based on the number of reasoning steps required to solve each problem.

创建时间：

2024-03-12

搜集汇总

数据集介绍

构建方式

在数学推理能力评估领域，构建高质量的数据集对于深入理解大型语言模型的抽象概念理解与逻辑推理能力至关重要。FineMath数据集的构建过程体现了严谨的学术规范，其核心方法包括从教科书、练习册及网络资源中广泛收集小学数学应用题，随后通过自动化预处理剔除非文字题、过短题目及依赖图像的题目，确保数据质量。在此基础上，研究团队依据中国教育部课程标准及美国NCTM数学教学原则，将题目手动标注为涵盖数与运算、测量、数据分析与概率、代数、几何等五大核心概念的17个精细类别，并依据解题所需推理步骤数将每类题目进一步划分为三个难度等级，同时为便于自动评估，所有题目均被转化为包含干扰项的选择题形式。

特点

作为针对中文大语言模型的细粒度数学评估基准，FineMath的突出特点在于其多维度的评估架构。数据集不仅涵盖了小学数学教育中的关键概念，还通过精细的类别划分与难度分级，实现了对模型数学概念掌握深度与多步骤推理能力的并行考察。其包含的1584道题目在类别与难度上分布均衡，每类至少60题，每个难度等级至少20题，确保了评估的全面性与统计稳健性。尤为重要的是，数据集附带了详尽的污染分析，通过计算与大型公开训练集Ape210K的n-gram重叠率，揭示了测试数据潜在泄露风险，为评估结果的可靠性提供了关键依据，避免了因数据污染导致的模型性能高估。

使用方法

在模型评估实践中，FineMath为研究者提供了灵活而严谨的使用框架。评估通常在零样本设置下进行，通过输入不同的提示词来探究模型对指令的敏感性。研究揭示了提示词的微小变化会显著影响模型输出，例如直接要求生成答案与提供“答案：”模板可能导致性能差异。数据集支持两种评估模式：一是传统的开放式答案生成，要求模型直接输出解题步骤与最终答案；二是基于选择题的选项预测，后者虽能约束输出格式，但可能因选项本身的提示效应而影响评估准确性。因此，建议优先采用生成式评估以更真实地反映模型推理能力，同时结合响应长度分析，探究模型在不同推理复杂度问题上的“信心”表现。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的迅猛发展，对其数学推理能力进行系统评估的需求日益凸显。FineMath数据集由天津大学、中国地质大学（武汉）和昆士兰大学的研究团队于2023年共同构建，旨在为中文大型语言模型提供一个细粒度的数学评估基准。该数据集聚焦于小学数学应用题，涵盖数运算、测量、数据分析与概率、代数及几何等五大核心数学概念，细分为17个具体问题类别，并依据解题所需推理步骤标注了三个难度等级。FineMath的创建不仅填补了中文数学评估数据集的空白，还通过其精细的结构设计，为深入分析模型在抽象概念理解与多步逻辑推理方面的能力提供了重要工具，对推动中文语言模型的数学能力评测具有显著影响力。

当前挑战

FineMath数据集致力于解决中文大型语言模型在数学推理能力评估中的核心挑战，即如何超越传统的按年级或整体准确率评估，实现基于具体数学概念与推理深度的细粒度分析。构建过程中的主要挑战包括：首先，数据收集与标注需确保高质量，需从教材、练习册及网络广泛搜集题目，并手动进行问题标准化、答案验证及推理步骤分解，工作量大且要求精准；其次，为避免测试数据污染导致模型性能高估，需对与现有训练集（如Ape210K）的重叠进行严格分析，这增加了数据清洗与验证的复杂性；最后，评估过程本身存在挑战，例如模型对提示词敏感、不同评估方法（生成答案与选项预测）会导致结果差异，这些因素都可能影响对模型真实数学推理能力的客观判断。

常用场景

经典使用场景

在大型语言模型数学能力评估领域，FineMath数据集作为细粒度中文数学评测基准，其经典使用场景在于系统性地评估模型对小学数学核心概念的掌握程度。该数据集依据中国教育部课程标准和美国NCTM数学教学原则，将1584道数学应用题划分为数与运算、代数、几何等五大知识领域的17个具体类别，每个类别进一步标注单步、双步及多步推理的难度层级。这种多维度的结构化设计，使得研究者能够精准探测模型在分数运算、比例关系、空间感知等特定数学概念上的推理能力，为模型能力诊断提供了前所未有的细粒度分析框架。

衍生相关工作

FineMath的发布催生了多个方向的衍生研究。在数据集构建方法上，其细粒度分类体系启发了后续研究者开发更精细的数学能力诊断工具，如针对中学数学的扩展评测基准。在模型评估方法论层面，该工作揭示的提示词敏感性问题，推动了关于数学评估协议标准化的学术讨论，促使后续研究关注评估过程的稳定性控制。部分研究者受其污染分析启发，开发了训练数据去重算法，以降低测试数据泄露对模型能力评估的干扰。这些衍生工作共同深化了学术界对数学推理评估科学性的认知。

数据集最近研究