AI-MO/NuminaMath-1.5
收藏Hugging Face2026-01-29 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/AI-MO/NuminaMath-1.5
下载链接
链接失效反馈官方服务:
资源简介:
NuminaMath 1.5是一个包含约90万个中学和数学竞赛级别数学问题的高质量数据集,每个问题的解答都采用链式思维(CoT)格式。该数据集的问题涵盖了代数、几何、数论、组合学、微积分、不等式、逻辑与谜题等多个数学领域,并包括了选择题、证明题和数学文字问题等多种题型。数据来源于中国高中数学练习、美国和国际数学奥林匹克竞赛等,经过了官方网站的手动解析和验证。
NuminaMath 1.5 is a high-quality dataset containing approximately 900k middle school and math competition level math problems, with each solution formatted in a Chain of Thought (CoT) manner. The problems cover various mathematical domains such as algebra, geometry, number theory, combinatorics, calculus, inequalities, logic, and puzzles, and include multiple-choice questions, proof questions, and math word problems. The data sources range from Chinese high school math exercises to US and international mathematics olympiad competitions, and have been manually parsed and verified from official websites.
提供机构:
AI-MO
搜集汇总
数据集介绍

构建方式
在数学教育领域,高质量的数据集对于推动模型推理能力至关重要。NuminaMath-1.5的构建过程体现了严谨的数据采集与处理策略。该数据集整合了约90万道竞赛级数学问题,其来源广泛,涵盖中国高中数学练习、美国及国际数学奥林匹克竞赛题目等。数据主要通过在线试卷PDF和数学讨论论坛收集,并采用思维链格式组织解决方案。针对早期版本中的解析问题,团队对奥林匹克竞赛子集进行了手动解析与验证,同时移除了可能影响性能的合成数据,确保了数据的可靠性与纯净度。
特点
该数据集在数学问题处理上展现出显著的结构化特征。每个问题均附有详细的元数据,包括最终答案、问题类型和提问形式,这为模型的细粒度学习提供了支持。问题类型覆盖代数、几何、数论等多个数学领域,提问形式则区分了选择题、证明题和数学应用题。数据来源的多样性,如奥林匹克竞赛参考、手动策划的竞赛问题及教育平台内容,共同构成了一个层次丰富、难度递进的数学问题集合,有助于模型全面掌握数学推理的复杂性。
使用方法
在机器学习应用中,NuminaMath-1.5为数学问题求解模型的训练与评估提供了坚实基础。研究人员可直接利用该数据集进行监督学习,通过思维链格式的解决方案训练模型生成逐步推理过程。数据集的元数据支持针对特定问题类型或形式的定向训练,例如专注于证明题或应用题的模型优化。此外,其丰富的来源分布允许进行跨领域泛化能力测试,为模型在真实数学场景中的表现评估提供了可靠基准。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,高质量数据集的构建是推动模型深度理解复杂数学问题的关键。NuminaMath-1.5数据集由Numina团队于2024年发布,作为NuminaMath系列的第二代迭代,其核心研究聚焦于为竞争级数学问题提供大规模、高质量的思维链(CoT)格式后训练数据。该数据集汇集了约90万道题目,涵盖从中国高中数学练习到美国及国际数学奥林匹克竞赛题目的广泛来源,旨在通过结构化的问题元数据(如答案、问题类型和题目形式)增强模型在代数、几何、数论等领域的推理能力,对提升数学专用大型语言模型的泛化性能具有显著影响力。
当前挑战
该数据集致力于解决数学问题自动求解中的核心挑战,即模型需在多样化题型(如证明题、选择题、数学应用题)中实现精确的逐步推理。构建过程中,团队面临数据质量与一致性的双重考验:早期版本因依赖通用正则表达式和大型语言模型解析,导致奥林匹克竞赛题目子集存在大量解析错误,后续需通过手动解析数十个国家数学奥林匹克官方网站进行修正;同时,合成数据子集在消融研究中被发现可能损害模型性能,促使团队计划移除所有合成数据,直至找到可靠生成高质量合成问题的方法,这凸显了在数学领域构建可信、无噪声数据集的复杂性。
常用场景
经典使用场景
在数学推理领域,NuminaMath-1.5数据集作为高质量的后训练资源,其经典应用场景集中于提升大型语言模型在复杂数学问题上的链式思维(Chain of Thought)能力。该数据集整合了从中国高中数学练习到国际数学奥林匹克竞赛级别的约90万道题目,每道题均以逐步推理的形式呈现,为模型提供了丰富的多步骤解题范例。研究人员通常利用该数据集对模型进行微调,以增强其在代数、几何、数论等核心数学领域的逻辑推导与符号运算性能,从而在数学问题求解任务上实现更接近人类专家的表现。
解决学术问题
该数据集有效应对了数学人工智能研究中长期存在的挑战,即如何让模型掌握严谨的数学推理过程而非仅依赖模式匹配。通过提供涵盖证明、选择题及数学应用题等多种题型的高质量标注数据,NuminaMath-1.5助力解决了模型在开放域数学问题中缺乏可验证输出、跨领域泛化能力不足等关键学术问题。其引入的问题类型与领域元数据,为可解释性数学推理模型的构建奠定了数据基础,推动了数学自动求解系统向更高可靠性与泛化性方向发展。
衍生相关工作
围绕NuminaMath-1.5数据集,已衍生出一系列聚焦于数学推理的经典研究工作。例如,基于其前身NuminaMath-CoT的迭代优化催生了针对奥林匹克竞赛题目的专项解析方法,促进了数学问题自动分类与难度评估模型的发展。同时,该数据集常被用于评估如MetaMath、OlympiadBench等新兴数学推理模型的性能,推动了链式思维生成、多步骤验证等技术的进步,并为后续合成数据质量管控、跨语言数学推理等研究方向提供了宝贵的基准数据。
以上内容由遇见数据集搜集并总结生成



