five

Math Mutator

收藏
github2025-03-03 更新2025-03-04 收录
下载链接:
https://github.com/aieng-lab/math-mutator
下载链接
链接失效反馈
官方服务:
资源简介:
Math Mutator是一个用于修改数学公式以生成用于语言模型训练的专用数据集的新框架。

Math Mutator is a novel framework for modifying mathematical formulas to generate specialized datasets for language model training.
创建时间:
2025-02-11
原始信息汇总

MAMUT 数据集概述

数据集简介

MAMUT(Modifying Mathematical Formulas for the Generation of Specialized Datasets for Language Model Training)是一个用于修改数学公式以生成用于语言模型训练的专用数据集的框架。

数据集组成

  • Math Formulas (MF): 高变异性数学公式数据集,例如 $xcdot x^N = x^{1 + N}$。
  • Math Text (MT): 结合自然语言和数学公式的文本数据集,例如 "Identify $sum_{n=0}^infty (y_n - L)$ where $y_{n + 1} = (1 + y_n)^{frac13}$ and $L^3 = L + 1$."
  • Named Math Formulas (NMF): 著名命名公式的数据集,例如勾股定理 $c^2=b^2+a^2$。
  • Math Formula Retrieval (MFR): 公式对及其标签,表示相同或不同的数学概念,例如 $1cdot 2cdot 3 cdot ldots cdot n = n!$ 和 $m!coloneqq prod_{k=1}^m k$ 标记为等价。

数据集来源

数据集由以下原始数据集生成:

数据集获取

生成的数据集可在 Hugging Face 上获取。

安装说明

  • 安装 condaminiconda
  • 安装 git
  • 克隆仓库并创建 Conda 环境。
  • 安装 jdrechsel13/sympy-random-LaTeXARQMathCode

数据生成

  • 下载原始数据(AMPS 和 ARQMATH)。
  • 生成 NMF、MFR、MF 和 MT 数据集。

引用

若使用此代码或提供的数据集,请引用以下论文: bibtex @misc{drechsel2025mamutnovelframeworkmodifying, title={{MAMUT}: A Novel Framework for Modifying Mathematical Formulas for the Generation of Specialized Datasets for Language Model Training}, author={Jonathan Drechsel and Anja Reusch and Steffen Herbold}, year={2025}, eprint={2502.20855}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.20855}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Math Mutator数据集的构建基于MAMUT框架,该框架旨在修改数学公式以生成专门用于语言模型训练的数据集。首先对原始的AMPS和ARQMath数据集进行预处理,接着对公式进行过滤、提取和验证。通过SymPy的一个分支实现公式的等价和虚假版本的生成,最终生成四种类型的数据集:Math Formulas (MF)、Math Text (MT)、Named Math Formulas (NMF)和Math Formula Retrieval (MFR)。
特点
Math Mutator数据集的特点在于其多样性及专门为语言模型训练设计的针对性。它包含了具有高度变化的数学公式、结合自然语言和数学公式的文本、著名命名公式的变体以及带有等价或不等价标签的公式对,这些特点使得该数据集在数学公式处理和数学相关自然语言理解任务中具有重要的应用价值。
使用方法
使用Math Mutator数据集首先需要安装相关的环境和依赖库。用户可以通过GitHub仓库提供的脚本下载原始数据,然后运行相应的生成脚本来创建所需的数据集。生成的数据集可以直接用于语言模型的训练或评估,且在使用时需遵循相应的引用规范。
背景与挑战
背景概述
Math Mutator数据集,由Jonathan Drechsel、Anja Reusch和Steffen Herbold于2025年提出,旨在为语言模型训练生成专门的数学公式数据集。该数据集通过修改数学公式,创建了Math Formulas (MF)、Math Text (MT)、Named Math Formulas (NMF)和Math Formula Retrieval (MFR)四个子数据集,以应对数学公式处理中的挑战,对自然语言处理和数学公式理解领域产生了显著影响。
当前挑战
Math Mutator数据集在构建过程中面临的主要挑战包括:如何有效地修改数学公式以生成多样化的训练数据,如何保证生成数据的正确性和有效性,以及如何处理数学公式与自然语言结合的复杂文本。此外,该数据集在解决数学公式处理领域问题,如公式分类、检索和识别等方面,也面临着算法准确性和泛化能力的挑战。
常用场景
经典使用场景
Math Mutator数据集,作为数学公式修改及生成的专用框架,其经典使用场景主要在于为语言模型训练提供高度专业化的数据集。该数据集通过修改原始数学公式,生成等价或伪公式,以训练和评估语言模型对数学概念的理解和生成能力。
解决学术问题
该数据集解决了学术研究中如何有效生成具有高度变异性数学公式的问题,为研究数学公式识别、数学概念理解及数学公式生成等任务提供了标准化、可复现的数据基础,极大地推动了数学与自然语言处理领域的研究进展。
衍生相关工作
基于Math Mutator数据集,衍生出了一系列相关研究工作,包括数学公式的自动生成、数学概念的可解释性研究,以及数学公式在自然语言处理任务中的应用,如数学公式检索、数学公式语义解析等,为数学与人工智能的交叉领域贡献了丰富的研究成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作