OpenMathReasoning
收藏Hugging Face2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/nvidia/OpenMathReasoning
下载链接
链接失效反馈官方服务:
资源简介:
OpenMathReasoning是一个用于训练大型语言模型的大规模数学推理数据集,包含54万唯一数学问题,3.2M CoT解决方案,1.7M TIR解决方案和56.6万个GenSelect样本。数据集字段包括问题、生成的解决方案、解决方案模型、问题类型、预期答案、问题来源、推理模式和通过率等。
提供机构:
NVIDIA
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
OpenMathReasoning数据集作为数学推理领域的重要资源,其构建过程体现了严谨的学术方法论。研究团队从AoPS论坛精选了54万道独特数学问题,通过Qwen2.5-32B-Instruct模型进行问题预处理,并采用DeepSeek-R1和QwQ-32B两大先进模型生成解决方案。数据集包含三种推理模式:320万条思维链(CoT)解决方案、170万条工具集成推理(TIR)方案,以及56万条候选方案优选(GenSelect)样本,构建过程严格遵循可复现的科研标准。
特点
该数据集最显著的特征在于其多维度标注体系。每个样本包含问题陈述、生成方案、问题类型等八个结构化字段,特别设计了pass_rate_72b_tir指标来评估Qwen2.5-Math-72B-Instruct模型的TIR模式通过率。数据集覆盖高中奥赛题到专业数学证明题,问题来源标注清晰,解决方案包含CoT、TIR和GenSelect三种推理范式,为研究不同数学推理方法提供了丰富素材。
使用方法
使用者可通过HuggingFace平台获取该数据集,按照cot、tir和genselect三种分割方式加载。研究人员建议参考配套发布的OpenMath-Nemotron系列模型进行基准测试,该系列包含1.5B到32B不同规模的预训练模型。数据集特别适用于数学推理模型的微调训练,通过problem_type字段可筛选特定类型题目,pass_rate_72b_tir指标则为模型性能评估提供了量化标准。配套的NeMo-Skills工具链完整开源,支持从数据生成到模型训练的全流程复现。
背景与挑战
背景概述
OpenMathReasoning数据集由NVIDIA Corporation于2025年4月发布,旨在推动大规模语言模型在数学推理领域的发展。该数据集整合了来自AoPS论坛的54万道独特数学问题,并生成了320万条链式推理(CoT)解决方案、170万条工具集成推理(TIR)解决方案以及56.6万条候选方案优选(GenSelect)样本。通过Qwen2.5-32B-Instruct等先进模型进行数据预处理与生成,该数据集成为AIMO-2 Kaggle竞赛优胜方案的核心基础,显著提升了模型在AIME、HMMT等数学基准测试中的表现。其开源特性与多模态推理架构为数学教育、自动解题系统等领域提供了重要研究资源。
当前挑战
该数据集面临的核心挑战体现在问题复杂性与生成质量的双重维度。数学问题的高抽象性要求模型具备严格的逻辑推导能力,而数据构建过程中需解决答案提取不完整(如'no_answer_extracted'类问题)与证明类问题转化('converted_proof')的技术难题。此外,不同推理模式(CoT/TIR/GenSelect)的协同优化、生成解决方案的可靠性验证(通过pass_rate_72b_tir指标量化),以及超大规模数据(总规模达114GB)的清洗与标注,均为构建过程中的关键瓶颈。这些挑战直接影响了模型在HLE-Math等高难度测试集上的性能上限。
常用场景
经典使用场景
OpenMathReasoning数据集作为大规模数学推理数据集,其经典使用场景主要聚焦于训练和评估大型语言模型(LLMs)在复杂数学问题上的推理能力。该数据集通过整合来自AoPS论坛的54万道独特数学问题,以及320万条链式推理(CoT)解决方案和170万条工具集成推理(TIR)解决方案,为研究者提供了丰富的训练素材。特别是在数学奥林匹克竞赛题和高等数学问题的求解中,该数据集能够显著提升模型的多步推理和逻辑推导能力。
实际应用
在实际应用中,OpenMathReasoning数据集已被证明能够显著提升模型在数学竞赛和学术研究中的表现。例如,基于该数据集训练的OpenMath-Nemotron系列模型在AIME、HMMT等国际数学竞赛题上取得了领先成绩。教育领域可以利用这些模型开发智能辅导系统,帮助学生理解复杂数学概念。此外,该数据集还为自动化数学问题求解和推理引擎的开发提供了重要基础。
衍生相关工作
OpenMathReasoning数据集已经衍生出多个重要的相关研究工作。最突出的是基于该数据集训练的OpenMath-Nemotron系列模型,包括1.5B、7B、14B和32B等不同规模的版本,这些模型在多项数学推理基准测试中创造了新的性能记录。此外,该数据集还支持了Kaggle竞赛AIMO-2的获胜方案,推动了工具集成推理和生成选择等先进方法的发展。相关代码和模型已在GitHub和HuggingFace平台开源,促进了学术界的进一步研究。
以上内容由遇见数据集搜集并总结生成



