OpenMathReasoning
收藏arXiv2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/collections/nvidia/openmathreasoning68072c0154a5099573d2e730
下载链接
链接失效反馈官方服务:
资源简介:
OpenMathReasoning数据集是由NVIDIA团队创建的大型数学问题数据集,包含54万个独特的数学问题及其320万个长推理链路的解决方案。该数据集的构建旨在推动数学推理模型的发展,特别是解决数学奥林匹克级别的问题。数据来源于Art of Problem Solving社区论坛,经过问题抽取、分类、转换、答案提取等步骤,并去除了与现有数学基准测试相似的问题,最终形成了这个多样化的数学问题数据集。
The OpenMathReasoning dataset is a large-scale mathematical problem dataset created by the NVIDIA team, which contains 540,000 unique mathematical problems and 3.2 million solutions with long reasoning chains. This dataset is constructed to advance the development of mathematical reasoning models, especially for solving Olympiad-level mathematical problems. The data is sourced from the Art of Problem Solving (AoPS) community forum, and after undergoing a series of processing steps including problem extraction, classification, transformation, and answer extraction, as well as filtering out problems similar to those in existing mathematical benchmark datasets, this diverse mathematical problem dataset is finally formed.
提供机构:
NVIDIA
创建时间:
2025-04-24
搜集汇总
数据集介绍

构建方式
OpenMathReasoning数据集的构建过程体现了严谨的科学方法论与创新的数据处理技术。研究团队通过多阶段流程构建了这一数学推理基准:首先从AoPS数学论坛收集62万条原始讨论帖,采用Qwen2.5-32B-Instruct模型进行问题提取与清洗,经过无效问题过滤、证明题转换、答案提取等步骤,最终获得54万道高质量数学问题。针对解题过程,团队创新性地采用两阶段解决方案生成策略:先通过DeepSeek-R1和QwQ-32B模型生成320万条长推理链式思考(CoT)解答,再开发工具集成推理(TIR)流程,经过迭代训练与质量过滤产生170万条含代码执行的解决方案。数据集最后通过严格的基准去污染处理,确保与现有数学基准的独立性。
特点
OpenMathReasoning数据集在规模与质量维度均达到业界领先水平,具有三个显著特征:其问题库涵盖从基础算术到奥数级别的540K独特数学问题,构成当前最大的开放数学问题集之一;解决方案的多样性突出,既包含传统文本推理的3.2M条CoT解答,又创新性地整合了1.7M条工具集成推理方案,为模型训练提供多模态学习素材;数据组织形式科学,所有问题均通过严格验证并标注难度等级,解决方案经过答案正确性验证与质量分级。特别值得注意的是,该数据集首次系统性地将代码执行与数学推理相结合,为复杂数学问题的自动化求解提供了新的研究范式。
使用方法
该数据集支持三种主要使用模式:传统链式思考(CoT)模式适用于基础数学推理研究,用户可直接加载问题文本与对应CoT解决方案进行模型训练;工具集成推理(TIR)模式需配置Python执行环境,通过<tool_call>标签识别代码片段实现程序化计算,该模式特别适合需要数值计算或符号运算的复杂问题;生成式解决方案选择(GenSelect)模式提供56.6万条对比数据,可用于训练模型从多个候选方案中选出最优解。研究人员可根据需要混合使用这三种模式,通过调整提示模板切换推理方式。所有数据均采用标准化JSON格式存储,问题与解决方案间通过唯一ID关联,并附有详细的元数据说明。
背景与挑战
背景概述
OpenMathReasoning数据集由NVIDIA的研究团队于2025年创建,旨在推动数学推理领域的研究。该数据集包含54万个独特的数学问题,以及320万条长推理链解决方案和170万条工具集成推理解决方案。其核心研究问题聚焦于如何通过大规模高质量数据提升语言模型在复杂数学问题上的推理能力,特别是在奥林匹克数学竞赛级别的难题上。该数据集对数学教育、自动解题系统和AI数学推理等领域产生了深远影响,为相关研究提供了宝贵的资源。
当前挑战
OpenMathReasoning数据集面临多重挑战。在领域问题层面,数学推理本身具有高度复杂性,涉及多步骤推导、符号运算和抽象思维,这对模型的逻辑连贯性和计算准确性提出了极高要求。在构建过程中,数据收集面临奥林匹克数学问题稀缺的难题;解决方案生成需要平衡自动化生成与人工验证;质量管控需解决长推理链中的错误累积问题;工具集成推理要求代码执行与自然语言推理的无缝衔接;而评估体系设计则需兼顾自动化评测与专家评判的平衡。
常用场景
经典使用场景
OpenMathReasoning数据集在数学推理模型的训练与评估中展现出卓越的应用价值。该数据集包含54万道独特的高质量数学题目及其320万条长推理链解答,特别适用于训练能够处理复杂数学问题的语言模型。在AIMO-2竞赛中,参赛团队通过该数据集构建的工具集成推理(TIR)模型,成功解决了34道国家级数学奥林匹克难题,证明了其在处理高阶数学问题上的有效性。数据集覆盖从基础代数到奥数级别的各类题型,为模型提供了全面的数学推理能力训练场景。
实际应用
在实际应用层面,OpenMathReasoning数据集支撑的模型已部署于智能教育辅导系统,能够逐步解析奥数级难题并提供多模态解答。竞赛组织方采用其衍生模型进行题目难度评估与解题思路验证。研究团队利用数据集的工具集成特性开发了交互式数学学习平台,支持学生通过自然语言提问获取含代码演示的解题过程。工业界则将其应用于金融建模和工程计算等需要复杂数学推理的场景,显著提升了自动化解决方案的可靠性。
衍生相关工作
该数据集催生了多项重要研究工作:基于TIR框架开发的OpenMath-Nemotron模型系列成为开源数学推理的新基准;受GenSelect启发提出的自洽性验证方法被广泛应用于逻辑推理任务;其数据构建流程被Skywork-MathQA等后续数据集效仿。数据集还促进了工具学习与符号计算的融合研究,如MARIO框架将数学推理扩展到多工具协作场景。相关技术已被整合到DeepSeek-R1、Qwen2.5等主流开源模型中,形成了完整的数学推理技术生态。
以上内容由遇见数据集搜集并总结生成



