five

Math Mutator (MAMUT) 生成的数学数据集

收藏
arXiv2025-02-28 更新2025-03-04 收录
下载链接:
https://github.com/aieng-lab/math-mutator
下载链接
链接失效反馈
官方服务:
资源简介:
Math Mutator (MAMUT)是一个专门为增强数学语言模型训练和数学内容理解而设计的框架。它能够生成等价的和看似相似但实际上不等价的数学公式版本,包括数学公式数据集(MF)、数学文本数据集(MT)、命名数学公式数据集(NMF)和数学公式检索数据集(MFR)。这些数据集包含多样化的数学符号和表达式,旨在帮助模型学习理解和处理数学语言中的复杂性和多样性。

Math Mutator (MAMUT) is a framework specifically designed to enhance the training of mathematical language models and advance the comprehension of mathematical content. It can generate both equivalent variants of mathematical formulas and variants that appear similar but are actually non-equivalent, along with four dedicated datasets: Mathematical Formula Dataset (MF), Mathematical Text Dataset (MT), Named Mathematical Formula Dataset (NMF), and Mathematical Formula Retrieval Dataset (MFR). These datasets encompass a diverse range of mathematical symbols and expressions, aiming to help models learn to understand and handle the complexity and diversity present in mathematical language.
提供机构:
帕绍大学计算机科学与数学学院, 以色列理工学院计算机科学学院
创建时间:
2025-02-28
原始信息汇总

数据集概述

数据集名称

MAMUT: A Novel Framework for Modifying Mathematical Formulas for the Generation of Specialized Datasets for Language Model Training

数据集简介

此数据集包含用于语言模型训练的数学公式修改框架的官方源代码,用于生成数学公式数据集,包括对原始AMPS和ARQMath数据集的预处理、公式过滤、提取和验证等。

数据集组成

  • Math Formulas (MF): 高变异性数学公式
  • Math Text (MT): 结合自然语言和数学公式的文本
  • Named Math Formulas (NMF): 著名命名的数学公式
  • Math Formula Retrieval (MFR): 公式对,带有表示相同或不同数学概念的标签

数据集获取

数据集可通过Hugging Face获取,具体地址如下:

安装说明

  • 安装conda或miniconda
  • 安装git
  • 克隆仓库
  • 创建conda环境并安装依赖
  • 安装sympy-random-LaTeX
  • 克隆ARQMathCode并添加到PYTHONPATH
  • 验证安装

数据生成

  • 下载原始数据(AMPS和ARQMATH)
  • 生成Named Math Formulas (NMF)
  • 生成Math Formula Retrieval (MFR)
  • 生成Math Formulas (MF)
  • 生成Math Text (MT)

引用

若使用此代码或提供的数据集,请引用以下论文:

bibtex @misc{drechsel2025mamutnovelframeworkmodifying, title={{MAMUT}: A Novel Framework for Modifying Mathematical Formulas for the Generation of Specialized Datasets for Language Model Training}, author={Jonathan Drechsel and Anja Reusch and Steffen Herbold}, year={2025}, eprint={2502.20855}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.20855}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Math Mutator (MAMUT) 是一个专门用于生成数学公式的框架,它通过解析给定的数学公式并自动生成等价和虚假的版本,从而有效地捕捉到同一概念的数学表示的多样性。MAMUT 使用两种核心算法:等价版本生成 (EquVG) 和虚假版本生成 (FalseVG)。EquVG 算法通过替换符号和修改数学符号来生成数学上等价的公式变体,而 FalseVG 算法则通过应用一系列修改策略来创建数学上不等价的公式变体,以提供具有挑战性的负例。这些算法利用了数学性质,如交换性和对称性,以及符号的替换,以确保生成的公式在数学上保持一致性。
特点
MAMUT 生成的数学数据集具有以下特点:多样性、规模大、高质量。数据集包括数学公式、包含自然语言和数学公式的文本、命名的数学公式模板以及数学公式检索数据集。这些数据集可以用于训练数学语言模型,以提高其对数学内容的编码能力。MAMUT 的独特之处在于它能够生成具有挑战性的虚假版本,这对于训练模型区分数学等价性至关重要。
使用方法
MAMUT 生成的数学数据集可用于训练数学语言模型,以提高其对数学内容的编码能力。这些数据集可以用于多种任务,包括掩码语言建模 (MLM)、因果语言建模 (CLM) 和对比学习。MAMUT 的数据集还可以用于训练数学信息检索 (MIR) 系统,以根据用户查询检索相关的数学公式。使用 MAMUT 数据集时,用户可以根据需要选择合适的任务和数据集,并使用 MAMUT 提供的代码库进行数据处理和模型训练。
背景与挑战
背景概述
数学公式在各种科学领域中扮演着基础且广泛使用的角色,作为表达复杂概念和关系的通用语言。尽管最先进的基于变压器的模型在处理和理解自然语言方面表现出色,但它们在处理数学符号方面却面临挑战,因为数学符号具有复杂的结构和多样的表示形式。本研究专注于开发专门的训练数据集以增强数学内容的编码。我们引入了Math Mutator (MAMUT),一个能够生成给定数学公式在LATEX表示法中的等价和虚假版本的框架,有效地捕捉了相同概念的数学表示的多样性。基于MAMUT,我们已经生成了四个包含多样化表示的大型数学数据集,可以用于训练具有增强数学嵌入的语言模型。
当前挑战
数学公式在结构、表示和隐含语义方面的复杂性对机器学习模型构成了挑战。例如,x = −b± √(b2−4ac) / 2a涉及嵌套操作,而不同的表示形式,如x/y、x÷y、x·y−1等,可以表示相同的数学关系,同时符号的上下文意义(例如,i作为索引或虚数单位)进一步复杂了理解。这些困难突出了训练模型进行数学内容所需的丰富、专门的训练数据集的必要性。然而,现有的数据集由于专家策划或缺乏问题类型和表示的多样性而面临可扩展性限制。为了解决这个问题,我们提出了一个框架Math Mutator (MAMUT),用于生成高质量和多样化的数学公式,以提高数学语言模型的训练和理解能力。MAMUT允许创建数学上等价的公式(EquVG)和具有挑战性的非等价版本(FalseVG)。这包括随机更改变量和函数标识符以及利用数学属性(如交换律和对称性)的LATEX表示形式的变化。此外,我们将这种方法扩展到包含数学LATEX表示的文本中,确保在文本上下文中标识符和表示形式的更改一致。我们应用MAMUT生成四个数据集(见图1和表1),用于训练数学语言模型,例如用于方程补全任务的进一步数学预训练。
常用场景
经典使用场景
Math Mutator (MAMUT) 生成的数学数据集主要用于训练和评估数学语言模型的能力。这些数据集通过提供多样化的数学公式和文本,帮助模型学习理解数学符号的复杂结构,以及数学表达式的多样性和隐含语义。MAMUT 生成的数据集可以用于数学信息检索(MIR)任务,如公式完成、公式相似度判断等。此外,这些数据集还可以用于数学预训练,以提高模型在数学推理和问题解决方面的能力。
解决学术问题
MAMUT 生成的数据集解决了数学语言模型在理解和处理数学符号方面的挑战。传统的语言模型在处理自然语言方面表现出色,但在处理数学符号时却遇到了困难。MAMUT 通过生成等价和非等价的数学公式版本,为模型提供了更多样化的训练数据,从而帮助模型更好地理解和编码数学内容。此外,MAMUT 还可以生成包含自然语言和数学公式的文本数据,帮助模型学习数学概念和自然语言之间的关联。
衍生相关工作
MAMUT 生成的数据集衍生了一系列相关工作。例如,InfinityMath 利用 GPT-4 将特定的数学问题转化为通用模板,从而生成多个问题变体。Li 等人提出了一种方法来将自然语言描述的数学问题形式化,并通过调整问题的操作来改变问题的难度。MathGenie 通过生成修改后的候选解来增强逐步解决方案,并将这些解反向传播到修改后的问题中。这些相关工作进一步推动了数学语言模型的发展,并扩展了 MAMUT 的应用范围。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务