agicorp/MetaMathQA

Name: agicorp/MetaMathQA
Creator: agicorp
Published: 2024-03-23 08:26:55
License: 暂无描述

Hugging Face2024-03-23 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/agicorp/MetaMathQA

下载链接

链接失效反馈

官方服务：

资源简介：

MetaMathQA数据集是从GSM8K和MATH的训练集中增强得到的，且没有使用测试集的数据。每个数据项的原始问题都可以在`meta-math/MetaMathQA`中找到，这些数据项均来自GSM8K或MATH的训练集。

提供机构：

agicorp

原始信息汇总

数据集概述

数据集来源

MetaMathQA 数据集是从 GSM8K 和 MATH 的训练集中增广而来。
所有增广数据均不来自测试集。

模型细节

MetaMath-Mistral-7B 模型完全在 MetaMathQA 数据集上进行微调，基于 Mistral-7B 模型。
使用 MetaMathQA 数据集并将基础模型从 llama-2-7B 更改为 Mistral-7B，可将 GSM8K 的性能从 66.5 提升至 77.7。

实验结果

MetaMath-Mistral-7B 在 GSM8K 上的 Pass@1 为 77.7，在 MATH 上的 Pass@1 为 28.2。

引用信息

参考文献： bibtex @article{yu2023metamath, title={MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models}, author={Yu, Longhui and Jiang, Weisen and Shi, Han and Yu, Jincheng and Liu, Zhengying and Zhang, Yu and Kwok, James T and Li, Zhenguo and Weller, Adrian and Liu, Weiyang}, journal={arXiv preprint arXiv:2309.12284}, year={2023} }

搜集汇总

数据集介绍

构建方式

在数学推理领域，MetaMathQA数据集的构建体现了创新的数据增强策略。该数据集源自GSM8K和MATH两个知名数学问题训练集的原始问题，通过系统性的数据扩充方法生成多样化的新样本。构建过程中严格遵循学术规范，确保所有增强数据均来自训练集，未涉及测试集内容，从而保障了评估的公正性。这种构建方式不仅丰富了数学问题的表达形式，还为模型提供了更全面的推理场景，为后续研究奠定了可靠的数据基础。

使用方法

在实践应用中，MetaMathQA数据集主要服务于大型语言模型的数学推理能力微调。研究人员可采用特定的提示模板，将数学问题嵌入指令格式中，引导模型进行逐步推理。技术实现需要配置相应的Python环境，包括transformers、torch等关键库的特定版本。数据集支持与不同基础模型结合使用，如将Mistral-7B作为基础架构时，建议采用较小的学习率以获得最佳微调效果。这种使用方法不仅适用于学术研究，也为开发高性能数学推理系统提供了标准化流程。

背景与挑战

背景概述

在大型语言模型（LLMs）的数学推理能力研究领域，MetaMathQA数据集于2023年由MetaMath团队创建，其核心研究问题聚焦于如何通过数据增强策略，有效提升LLMs在复杂数学问题上的逐步推理性能。该数据集基于GSM8K和MATH两个知名数学数据集的训练集进行构建，旨在通过生成多样化的数学问题变体，为模型训练提供更丰富的语义和结构信息。这一工作显著推动了数学问题求解领域的发展，为后续研究提供了高质量的数据资源，并在多项基准测试中展现出卓越的模型提升效果。

当前挑战

MetaMathQA数据集所针对的领域挑战在于，传统LLMs在数学推理任务中常面临逻辑链条断裂、符号运算错误以及多步骤问题理解不足等难题。在数据集构建过程中，主要挑战包括如何确保数据增强的多样性与真实性，避免引入噪声或偏差，同时严格区分训练与测试数据来源，防止数据泄露。此外，生成的问题变体需保持与原问题在数学本质上的等价性，这对自动生成算法的准确性与泛化能力提出了较高要求。

常用场景

经典使用场景

在数学推理与大型语言模型融合的研究领域，MetaMathQA数据集常被用于微调基础模型，以提升其在数学问题求解中的逐步推理能力。该数据集通过基于GSM8K和MATH训练集的增强方法，生成了丰富的数学问答对，为模型提供了多样化的思维链示例。研究者通常利用这些数据训练模型，使其能够模拟人类解题时的逻辑步骤，从而在标准数学基准测试中实现性能突破。

解决学术问题

MetaMathQA数据集主要解决了大型语言模型在数学推理任务中泛化能力不足和思维链生成质量低下的问题。通过提供高质量的增强数据，它帮助模型克服了传统训练数据稀缺导致的过拟合现象，显著提升了模型在复杂数学问题上的准确率。这一进展推动了可解释人工智能的发展，为模型逻辑推理能力的评估设立了新标准。

实际应用

在实际应用中，MetaMathQA数据集支撑了智能教育辅助系统的开发，例如自动化数学解题工具和个性化学习平台。基于该数据集训练的模型能够为学生提供详细的步骤解析，助力数学素养的提升。同时，它在金融分析和工程计算等领域也展现出潜力，为需要精确数学推理的自动化决策系统提供了技术基础。

数据集最近研究