数学推理数据集
收藏arXiv2024-12-06 更新2024-12-10 收录
下载链接:
http://arxiv.org/abs/2412.04857v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由南京大学和微软亚洲研究院联合创建,旨在通过自动化方法生成高质量的数学推理数据集,以提升大型语言模型(LLMs)在数学推理方面的表现。数据集包含62万条数学问题,通过符号空间中的系统采样和符号求解器确保问题的多样性和有效性。数据集的创建过程结合了神经网络和符号推理的优势,通过变异机制生成具有可控复杂度的新问题。该数据集主要应用于提升LLMs在数学推理任务中的性能,解决现有模型在数学推理上的不足。
This dataset was jointly developed by Nanjing University and Microsoft Research Asia. It is designed to generate high-quality mathematical reasoning datasets through automated methods to improve the performance of Large Language Models (LLMs) in mathematical reasoning tasks. The dataset contains 620,000 mathematical problems, whose diversity and validity are guaranteed via systematic sampling in the symbolic space and symbolic solvers. The dataset creation process integrates the advantages of neural networks and symbolic reasoning, generating new problems with controllable complexity through a mutation mechanism. This dataset is primarily used to enhance the performance of LLMs on mathematical reasoning tasks, addressing the limitations of existing models in mathematical reasoning.
提供机构:
南京大学,微软亚洲研究院
创建时间:
2024-12-06
搜集汇总
数据集介绍

构建方式
数学推理数据集通过一种新颖的神经符号框架构建,该框架结合了大型语言模型(LLMs)的直观非正式化能力和数学求解器的精确符号推理能力。具体而言,该框架首先将原始数学问题形式化为符号空间中的表达式,随后通过系统采样和符号求解器确保问题的多样性和有效性。通过变异机制,生成新的数学问题,并将其从符号空间转换回自然语言形式。该方法通过投影马尔可夫链蒙特卡洛(MCMC)技术进行随机采样,确保生成问题的多样性和有效性。
特点
该数据集的主要特点在于其通过符号空间中的变异机制生成,确保了问题的多样性和有效性。生成的数学问题具有可控的复杂度,能够覆盖不同难度级别,从而为模型提供了广泛的训练数据。此外,通过符号求解器验证生成问题的正确性,确保了数据的高质量。生成的数据集包含620K个示例,涵盖了从基础到高级的数学问题,适用于监督微调。
使用方法
该数据集可用于监督微调大型语言模型(LLMs),以提升其在数学推理任务中的表现。具体使用方法包括将生成的数学问题及其对应的自然语言描述作为输入,结合符号求解器生成的推理路径和答案进行训练。通过在GSM8K和MATH等基准数据集上的实验,证明了该数据集在提升模型数学推理能力方面的有效性。此外,该数据集还可用于评估模型在不同难度级别问题上的表现,以及在跨领域数据集上的泛化能力。
背景与挑战
背景概述
数学推理数据集是由南京大学和微软亚洲研究院的研究团队开发的一个高质量数学数据集,旨在探索大型语言模型(LLMs)在数学推理方面的不足是否源于数据质量的不足。该数据集通过结合神经网络和符号推理的优势,自动生成多样且有效的数学问题,确保问题的多样性和有效性。研究团队提出了一种神经符号数据生成框架,通过系统采样和符号求解器来生成高质量的数学数据,并验证了生成的数据能够显著提升LLMs在数学推理任务中的表现。
当前挑战
数学推理数据集的构建面临两大主要挑战:一是如何在生成多样数学数据的同时保持其有效性,传统的基于提示的方法可能导致错误,而基于模板的方法则牺牲了多样性;二是如何确保生成问题的复杂性可控,以适应不同层次的数学推理需求。此外,数据生成过程中需要依赖符号求解器来验证问题的有效性,但现有符号求解器在处理复杂问题时存在局限性,这也为数据集的扩展带来了挑战。
常用场景
经典使用场景
数学推理数据集的经典使用场景主要集中在评估和提升大型语言模型(LLMs)在数学推理任务中的表现。通过该数据集,研究者可以对LLMs进行监督式微调,使其在解决数学问题时展现出更强的逻辑推理能力。数据集中的数学问题经过精心设计,涵盖了从基础到复杂的多个难度级别,能够有效测试模型在不同数学场景下的推理能力。
实际应用
数学推理数据集在实际应用中具有广泛的前景,特别是在教育、自动化问题解决和智能辅导系统等领域。例如,该数据集可以用于开发智能数学辅导系统,帮助学生解决复杂的数学问题;也可以应用于自动化考试系统,评估学生的数学推理能力。此外,该数据集还可以用于训练AI助手,使其能够更好地理解和解决用户的数学问题。
衍生相关工作
数学推理数据集的提出激发了许多相关研究工作。例如,基于该数据集的神经符号生成框架被广泛应用于其他领域的数据生成任务,推动了神经符号计算的发展。此外,该数据集还启发了对LLMs在数学推理中的进一步研究,包括如何通过更复杂的数学问题提升模型的推理能力,以及如何将符号推理与神经网络更好地结合以解决实际问题。
以上内容由遇见数据集搜集并总结生成



