openmath-reasoning-minimax
收藏Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/PursuitOfDataScience/openmath-reasoning-minimax
下载链接
链接失效反馈官方服务:
资源简介:
OpenMath Reasoning MiniMax 数据集包含针对来自 nvidia/OpenMathReasoning 数据集的数学问题所生成的LLM解决方案。每个问题都配有LLM生成的逐步推理过程(用<think>标签标记)和完整的数学严谨解答。数据集保留了原始数据集中的预期答案用于评估和比较。该数据集适用于数学推理模型的微调、评估和分析,包含740,881个示例,平均每个示例约17,900个令牌。数据格式包括问题索引、原始问题、生成的解决方案、预期答案、问题类型、问题来源、生成模型和令牌数量等字段。解决方案格式包含模型推理过程和最终解答文本。数据集适用于数学问题解决中的推理模式研究以及将推理能力转移到较小模型的蒸馏任务。
创建时间:
2026-02-13
原始信息汇总
OpenMath Reasoning MiniMax 数据集概述
数据集基本信息
- 数据集名称:OpenMath Reasoning MiniMax
- 发布者:PursuitOfDataScience
- 许可证:Apache 2.0
- 任务类别:文本生成、问答
- 语言:英语
- 标签:数学、推理、思维链、合成数据、问题解决、数学
- 配置名称:default
- 数据文件:
data/cot-*.parquet
数据内容与来源
- 核心内容:包含针对来自
nvidia/OpenMathReasoning数据集的数学问题所生成的LLM解决方案。 - 源数据集:所有数学问题均源自
nvidia/OpenMathReasoning数据集。 - 解决方案生成:使用可配置的LLM模型配合扩展思维生成。
- 用途:用于数学推理的微调、评估和分析。
数据集构成
- 唯一划分:
cot(思维链) - 样本数量:740,881 个示例
- 总令牌数:13,261,689,862
- 平均令牌数:17,900
数据生成细节
- 生成模型:MiniMax-M2.1, MiniMax-M2.5
- 最大令牌数:196,608
- 扩展思维:已启用
数据字段说明
每个示例包含以下字段:
| 字段名 | 类型 | 来源 | 描述 |
|---|---|---|---|
idx |
int | nvidia/OpenMathReasoning | 源数据集划分中的索引 |
problem |
str | nvidia/OpenMathReasoning | 源自源数据集的原始数学问题 |
generated_solution |
str | Generated | LLM生成的解决方案,包含在 <think> 标签内的逐步推理 |
expected_answer |
str | nvidia/OpenMathReasoning | 用于评估的、来自源数据集的真实答案 |
problem_type |
str | nvidia/OpenMathReasoning | 类型分类 |
problem_source |
str | nvidia/OpenMathReasoning | 原始来源 |
generation_model |
str | Generated | 用于生成此解决方案的LLM模型 |
num_tokens |
int | Generated | 生成过程中使用的总令牌数(输入+输出) |
解决方案格式
generated_solution 字段包含:
<think>...</think>:模型的推理过程。- 思考块之后的最终解决方案文本。
使用方式
可通过 datasets 库加载:
python
from datasets import load_dataset
dataset = load_dataset("PursuitOfDataScience/openmath-reasoning-minimax")
cot_data = load_dataset("PursuitOfDataScience/openmath-reasoning-minimax", split="cot")
划分描述
| 划分 | 描述 |
|---|---|
| cot | 思维链推理示例 |
| tir | 工具集成推理示例 |
| genselect | 生成并选择的示例 |
| additional_problems | 额外的多样化数学问题 |
主要用途
- 微调:使用逐步解决方案训练数学推理模型。
- 评估:将模型输出与预期答案进行比较。
- 分析:研究数学问题解决中的推理模式。
- 蒸馏:将推理能力迁移到更小的模型。
引用要求
使用此数据集时,请引用:
PursuitOfDataScience的OpenMath Reasoning MiniMax Dataset。- 源数据集
nvidia/OpenMathReasoning。
致谢
- 源问题与答案:
nvidia/OpenMathReasoning数据集。 - 解决方案生成:使用 MiniMax-M2.1, MiniMax-M2.5 模型。
- 数据整理:由 PursuitOfDataScience 完成。
搜集汇总
数据集介绍

构建方式
在数学推理领域,数据集的构建往往依赖于高质量的问题源与先进的生成技术。OpenMath Reasoning MiniMax数据集以NVIDIA的OpenMathReasoning数据集为基础,从中提取了涵盖多种数学分支的原始问题。随后,利用MiniMax-M2.1和MiniMax-M2.5等大型语言模型,为每个问题生成了包含逐步推理过程的解决方案。生成过程中启用了扩展思考机制,确保模型能够深入分析问题,并将思考过程封装在<think>标签内,最终输出严谨的数学解答。这一构建方式不仅保留了原始数据集的预期答案以供评估,还通过合成方法丰富了数学推理的示范资源。
特点
该数据集的核心特点在于其结构化的解决方案格式与丰富的元数据信息。每个示例均包含原始问题、模型生成的解决方案以及来自源数据集的预期答案,其中生成的解决方案明确区分了思考过程与最终解答,便于研究者分析推理链条。数据集规模庞大,包含超过74万条示例,平均每个示例的令牌数约为17900,确保了内容的深度与广度。此外,问题类型与来源的标注使得用户能够根据具体需求筛选数据,例如专注于特定数学领域或问题难度,从而支持多样化的研究与应用场景。
使用方法
使用该数据集时,用户可通过Hugging Face的datasets库轻松加载,支持按分割(如cot、tir等)访问数据。加载后,每个示例的字段包括问题文本、生成解决方案、预期答案及生成模型等元数据。用户可进一步解析解决方案中的<think>标签,提取模型的推理步骤与最终答案,用于微调数学推理模型、评估模型性能或进行推理模式分析。数据集适用于数学教育、自动化问题求解及模型能力蒸馏等多个方向,为推进数学人工智能研究提供了实用资源。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,大型语言模型(LLM)的数学问题求解能力已成为核心研究焦点。OpenMath Reasoning MiniMax数据集由PursuitOfDataScience于2026年构建,其核心研究问题聚焦于通过LLM生成具有逐步推理过程的数学解决方案,以增强模型在复杂数学问题中的逻辑推演与解答能力。该数据集基于NVIDIA的OpenMathReasoning数据集,通过集成MiniMax-M2.1与MiniMax-M2.5等先进模型,生成了超过74万条包含思维链(Chain-of-Thought)的数学解答,为数学推理模型的微调、评估与分析提供了重要资源,推动了可解释人工智能在数学领域的发展。
当前挑战
该数据集旨在解决数学自动推理领域的核心挑战,即如何使模型不仅输出最终答案,还能生成透明、连贯的逐步推理过程,以提升模型的可解释性与泛化能力。构建过程中面临多重挑战:首先,确保生成的解决方案在数学上严谨且逻辑一致,避免出现推理断层或错误结论;其次,处理源数据集中多样化的数学问题类型与来源,需维持解答风格与深度的统一性;此外,大规模生成过程中需平衡计算效率与生成质量,同时有效标注与整合思维链结构,以支持后续的模型训练与评估任务。
常用场景
经典使用场景
在数学推理与人工智能交叉领域,OpenMath Reasoning MiniMax数据集为研究者提供了丰富的链式思维生成内容。该数据集的核心应用场景在于微调大型语言模型,通过其包含的详尽步骤化推理过程,模型能够学习如何解构复杂数学问题,并生成逻辑严谨的解答。这种基于生成内容的数据集,尤其适用于探索模型在数学领域的推理能力提升路径,为自动化解题系统的开发奠定了数据基础。
解决学术问题
该数据集主要针对数学推理中模型透明性与可解释性不足的学术挑战。通过提供带有明确思维标签的生成解决方案,它使得研究者能够深入分析语言模型在解决数学问题时的内部推理机制。这有助于评估模型推理的连贯性与正确性,并推动关于思维链生成、知识蒸馏以及模型错误诊断等方面的研究,从而在提升人工智能数学能力的同时,增强其决策过程的可靠性。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于数学推理模型优化的经典研究工作。例如,基于其链式思维数据进行的知识蒸馏研究,旨在将大型模型的复杂推理能力迁移至更高效的轻量级模型。同时,该数据集也常被用作基准,用于评估和比较不同模型在开放数学问题上的表现,催生了众多关于推理步骤生成质量、答案准确性以及泛化能力的新方法与新模型架构。
以上内容由遇见数据集搜集并总结生成



