NuminaMath-FIM

Name: NuminaMath-FIM
Creator: 浙江大学
Published: 2025-02-17 19:22:24
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11684v1

下载链接

链接失效反馈

官方服务：

资源简介：

NuminaMath-FIM是一个专注于数学推理任务的数据集，由浙江大学和美团集团共同创建。该数据集包含853K个数学问答对，通过将原始的NuminaMath-CoT数据集中的解答步骤进行分解，随机选择一个步骤作为中间步骤，其余的步骤分为前缀和后缀，从而构造出FIM训练数据。该数据集旨在通过填充缺失的推理步骤，提高大型语言模型在数学推理任务上的性能。

NuminaMath-FIM is a dataset focused on mathematical reasoning tasks, co-created by Zhejiang University and Meituan Group. This dataset contains 853K math question-answer pairs, which are constructed by decomposing the solution steps from the original NuminaMath-CoT dataset, randomly selecting one step as the intermediate step, and dividing the remaining steps into prefix and suffix to form FIM training data. This dataset aims to improve the performance of large language models on mathematical reasoning tasks by filling in the missing reasoning steps.

提供机构：

浙江大学

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

NuminaMath-FIM数据集的构建方式是通过对现有的NuminaMathCoT数据集中的解决方案进行前缀-后缀分解，并在中间步骤中插入缺失的中间步骤。这种方法旨在通过训练数学推理步骤扩展模型来提高数学推理能力。

特点

NuminaMath-FIM数据集的特点在于其独特的构建方式，它将现有的数学推理数据分解为前缀-后缀对，并训练模型以重建缺失的中间步骤。这种数据集的构建方式有助于提高数学推理模型的性能，因为它提供了更详细的中间步骤，从而有助于模型更好地理解和处理数学问题。

使用方法

NuminaMath-FIM数据集的使用方法包括使用数学推理步骤扩展模型MathFimer-7B对现有的数学推理数据进行步骤扩展。具体来说，对于原始数据集中的每对连续步骤，使用MathFimer-7B模型进行推理，以生成可能缺失的中间步骤或提供更详细的推理。这些生成的步骤将被插入到原始步骤中，从而构建一个更详细的答案。

背景与挑战

背景概述

在大型语言模型（LLM）中，数学推理是一个关键的前沿领域。尽管逐步方法已成为LLM中数学问题解决的主要范式，但训练数据中推理步骤的质量从根本上限制了模型的性能。最近的研究表明，更详细的中间步骤可以提高模型性能，然而，现有的步骤扩展方法要么需要更强大的外部模型，要么会导致巨大的计算成本。在这篇论文中，我们介绍了MathFimer，一个受代码补全中的“填空”任务启发的数学推理步骤扩展的新框架。通过将解决方案链分解为前缀-后缀对并训练模型以重建缺失的中间步骤，我们在精心策划的NuminaMath-FIM数据集上开发了一个专用模型MathFimer-7B。然后，我们将这些模型应用于增强现有的数学推理数据集，通过将详细的中间步骤插入到它们的解决方案链中，创建MathFimer扩展版本。通过在多个数学推理数据集上的全面实验，包括MathInstruct、MetaMathQA等，我们证明了在MathFimer扩展数据上训练的模型在GSM8K和MATH等各个基准测试中始终优于在原始数据上训练的模型。我们的方法为在没有依赖强大的外部模型或昂贵的推理过程的情况下增强LLM的数学推理能力提供了一种实用、可扩展的解决方案。

当前挑战

当前数学推理数据集面临的主要挑战包括：1)训练数据中推理步骤的粒度和完整性对模型推理能力的影响；2)现有的步骤扩展方法依赖于使用更大的模型来创建更好的步骤，这导致了一个循环，我们不断需要更大的模型来取得进步；3)这些方法需要大量的计算资源，特别是在使用高级技术如蒙特卡洛树搜索（MCTS）来探索不同的推理路径时；4)这些方法往往生成全新的推理链，这可能会引入意外的错误并降低解决方案的可靠性。NuminaMath-FIM数据集旨在通过提供更详细的中间步骤来解决这些挑战，从而增强LLM的数学推理能力。

常用场景

经典使用场景

NuminaMath-FIM数据集主要用于数学推理任务，特别是在大型语言模型（LLMs）中。它通过提供详细的中间步骤来增强LLMs的数学推理能力，使其能够在解决数学问题时生成更高质量的推理链条。NuminaMath-FIM数据集的经典使用场景是在数学推理数据集中插入详细的中间步骤，以创建MathFimer扩展版本的数据集。通过在多个数学推理数据集上进行综合实验，包括MathInstruct、MetaMathQA等，研究结果表明，在MathFimer扩展数据上训练的模型在多个基准测试中始终优于在原始数据上训练的模型，如GSM8K和MATH。

衍生相关工作

NuminaMath-FIM数据集衍生了多项相关工作，包括MathFimer框架、MathFimer-7B模型等。MathFimer框架是一种用于数学推理步骤扩展的框架，它通过插入详细的中间步骤来增强LLMs的数学推理能力。MathFimer-7B模型是基于NuminaMath-FIM数据集训练的数学推理模型，它可以有效地扩展推理步骤，并保持原始解决方案的结构。这些相关工作为LLMs的数学推理能力提供了新的思路和方法，有助于推动LLMs在数学推理领域的应用和发展。

数据集最近研究