math_reasoning

Hugging Face2025-04-02 更新2025-04-02 收录

下载链接：

https://huggingface.co/datasets/notbadai/math_reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练数学推理的数据集，被用于训练Notbad v1.0 Mistral 24B推理模型。推理数据来源于基于强化学习自我改进的Mistral-Small-24B-Instruct-2501模型。问题来源于NuminaMath 1.5、GSM8k训练集和MATH训练集。

创建时间：

2025-03-29

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
用途: 用于训练 Notbad v1.0 Mistral 24B 推理模型。

数据来源

推理数据: 从基于强化学习的自改进模型 Mistral-Small-24B-Instruct-2501 中采样。
问题来源:

搜集汇总

数据集介绍

构建方式

在数学推理领域的研究中，数据集的构建质量直接影响模型性能。该数据集通过强化学习驱动的自我改进机制，从Mistral-Small-24B-Instruct-2501模型中采样生成推理数据，确保了数据的多样性和复杂性。数据源融合了NuminaMath 1.5、GSM8k训练集和MATH训练集三大权威数学题库，采用严格的筛选标准保证题目覆盖算术、代数、几何等核心数学分支。

特点

该数据集最显著的特点是兼具广度与深度，既包含基础计算题也涵盖高阶数学证明。题目设计遵循认知科学原理，难度呈阶梯式分布，有利于模型逐步掌握数学推理能力。数据经过专业清洗和标准化处理，确保格式统一且无噪音干扰，每条数据都包含完整的解题步骤和最终答案，为监督学习提供可靠标签。

使用方法

研究者可将该数据集直接用于数学推理模型的训练与评估，建议采用分阶段训练策略。预处理时需保持原始数据结构，注意区分不同来源题目的特征差异。模型微调阶段推荐结合链式推理（Chain-of-Thought）技术，充分利用数据集提供的详细解题步骤。评估时应设计涵盖各数学分支的测试集，全面检验模型的实际推理能力。

背景与挑战

背景概述

math_reasoning数据集是专为训练Notbad v1.0 Mistral 24B推理模型而构建的高质量数学推理数据集，其构建基于强化学习自改进的Mistral-Small-24B-Instruct-2501模型。该数据集整合了NuminaMath 1.5、GSM8k训练集和MATH训练集三大权威数学问题来源，旨在解决复杂数学问题的自动化推理与求解这一核心研究问题。通过融合多源数据，该数据集为数学推理领域提供了更丰富的语义理解和逻辑推演能力，显著推动了大型语言模型在数学推理任务中的性能边界。

当前挑战

数学推理任务的复杂性在于其需要模型同时具备公式解析、多步推理和语义理解能力，而math_reasoning数据集面临的挑战主要体现在两方面：领域层面，如何平衡不同难度级别的问题分布以确保模型泛化性，以及如何处理开放域数学问题的模糊边界；构建层面，多源数据的异构性导致标注标准统一困难，且强化学习自改进过程中可能引入的偏差需要精细校准。这些挑战直接影响着模型在真实场景中的推理可靠性。

常用场景

经典使用场景

在数学推理领域，该数据集通过整合多个权威数学问题来源，为训练大规模语言模型提供了丰富的推理素材。数据集特别适用于多步骤数学问题求解场景，模型通过链式推理和符号运算能力的联合训练，能够处理从基础算术到高等数学的复杂问题。这种结构化的问题-解决方案配对机制，显著提升了模型在数学推理任务中的系统性表现。

解决学术问题

该数据集有效解决了数学推理模型训练中数据多样性不足和难度分布不均的学术难题。通过融合NuminaMath的开放域问题、GSM8k的日常数学场景以及MATH数据集的理论性题目，构建了覆盖不同认知层次的数学问题谱系。这种多维度的数据整合方式，为研究数学推理能力的可扩展性提供了重要实验基础，推动了认知计算与形式化方法交叉领域的发展。

衍生相关工作

该数据集直接催生了Notbad系列推理模型的研发，其中24B参数版本在数学基准测试中表现优异。后续研究基于此数据架构，发展了混合符号-神经网络的推理框架MathFormer。在数据集扩展方面，研究者通过引入物理建模问题，构建了跨学科的STEM-Reasoning基准，推动了复合型推理能力评估标准的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集