NuminaMath-1.5
收藏Hugging Face2025-02-10 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/AI-MO/NuminaMath-1.5
下载链接
链接失效反馈官方服务:
资源简介:
NuminaMath 1.5数据集是NuminaMath的第二次迭代,包含了大约900k个高质量的竞赛级别数学问题,每个问题的解决方案都采用链式思维(CoT)格式。这些问题来源于中国高中数学练习和美国及国际数学奥林匹克竞赛问题。此数据集新增了问题元数据,对问题类型进行了分类,并引入了更多经过手动校验的数据。此外,还移除了合成数据集,以提高数据质量。
The NuminaMath 1.5 dataset, the second iteration of NuminaMath, contains approximately 900,000 high-quality competition-level mathematics problems, each accompanied by a chain-of-thought (CoT) formatted solution. These problems are sourced from Chinese high school math exercises and problems from the American and International Mathematical Olympiads. This dataset adds problem metadata, classifies problem types, and introduces more manually verified data. Additionally, synthetic datasets have been removed to improve the overall data quality.
提供机构:
Project-Numina
创建时间:
2025-02-10
原始信息汇总
NuminaMath 1.5 数据集概述
数据集描述
- 数据集名称: NuminaMath 1.5
- 数据集简介: NuminaMath 1.5 是 NuminaMath 数据集的第二版,提供了大约90万个竞赛级别的数学问题的高质量后训练数据。每个解决方案都采用链式思维(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题和美国及国际数学奥林匹克竞赛问题,主要通过在线考试试卷PDF和数学讨论论坛收集。
- 数据集用途: 文本生成(text-generation)
- 语言: 英语(en)
- 标签: 数学(math)、后训练(post-training)
新增内容
-
问题元数据: 为所有问题添加了
answer、problem_type、question_type元数据。answer: 当问题类型为数学文字问题时,为问题的最终答案;对于其他类型问题,则为特殊值(如“proof”、“notfound”)。problem_type: 支持的数学领域类型,包括代数、几何、数论、组合学、微积分、不等式、逻辑与谜题等。question_type: 数学问题的形式或风格,包括选择题(MCQ)、证明题、数学文字问题等。
-
新数据源: 包括来自国际数学奥林匹克官方网站的修正数据、合作伙伴提供的竞赛问题数据,以及移除性能不佳的合成数据。
数据来源分布
| 数据源 | 问题数量 | 证明问题数量 | 选择题问题数量 | 文字问题数量 |
|---|---|---|---|---|
| olympiads | 197084 | 62970 | 13529 | 117845 |
| olympiads_ref | 3638 | 2246 | NaN | 1392 |
| amc_aime | 5872 | 208 | 4374 | 963 |
| aops_forum | 67841 | 24532 | 5924 | 33486 |
| cn_contest | 29944 | 8663 | 5602 | 15649 |
| inequalities | 7314 | 5780 | 49 | 1478 |
| number_theory | 4043 | 2591 | 15 | 1239 |
| cn_k12 | 268819 | 3966 | 115800 | 149010 |
| orca_math | 151934 | 1 | 17 | 151916 |
| synthetic_math | 148712 | 41 | 1057 | 147612 |
| metamath | 11014 | NaN | 82 | 10932 |
| 总计 | 896215 | 110998 | 146449 | 631522 |
许可信息
该数据集遵循 Apache License, Version 2.0。
引用信息
@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-1.5}} }
搜集汇总
数据集介绍

构建方式
NuminaMath 1.5数据集的构建汇集了约900k个竞赛级别的数学问题,涵盖了从中国高中数学练习到美国及国际数学奥林匹克竞赛的问题。数据主要来源于在线考试卷的PDF文件和数学讨论论坛,每个解决方案都以链式思维(Chain of Thought, CoT)格式呈现,同时加入了问题的答案、类型和领域等元数据信息。
特点
该数据集的特点在于其高质量的后训练数据,包含了丰富的数学领域,如代数、几何、数论、组合学、微积分、不等式、逻辑与谜题等。新增的问题元数据提供了答案、问题类型和问题领域,使得数据集更加全面和实用。此外,数据集还经过了人工校对,以确保问题和解决方案的准确性。
使用方法
使用NuminaMath 1.5数据集时,用户可以依据数据集中的元数据信息,进行数学问题的分类和后训练任务。数据集遵循Apache License 2.0协议,用户可以通过Hugging Face平台访问和下载。针对不同的数学领域和问题类型,用户可灵活地选择合适的数据子集进行训练和评估。
背景与挑战
背景概述
NuminaMath 1.5数据集是由Numina项目组推出的第二个版本,旨在为大约900k的高质量数学问题提供后训练数据。这些问题以链条式思维(Chain of Thought, CoT)的格式进行编排,其来源涵盖了中国高中数学练习题至美国及国际数学奥林匹克竞赛题。数据主要采集自在线考试卷PDF文件和数学论坛讨论。NuminaMath 1.5的发布,为数学问题解决领域提供了丰富的数据资源,自推出以来,受到了广泛关注,对相关研究和应用产生了显著影响。
当前挑战
该数据集面临的挑战主要包括:确保数学问题的准确性和多样性,以及解决方案的严谨性。在构建过程中,数据集的创建者遇到了解析和验证数学奥林匹克题目的问题,这要求采用更为精细的手动解析和验证流程。此外,数据集中还移除了合成数据集,因为研究发现它对性能有负面影响,未来计划在找到可靠的高质量合成问题生成方法之前,移除所有合成数据。这些挑战对数据集的质量和实用性提出了更高的要求。
常用场景
经典使用场景
NuminaMath 1.5数据集作为数学领域的高质量后训练数据集,其经典使用场景主要在于为机器学习模型提供丰富多样的数学问题及其解决过程的训练材料。该数据集包含了竞赛级别的数学问题,格式化为链式思维(Chain of Thought, CoT)模式,从而能够有效地辅助模型理解和生成数学解题的思路。
解决学术问题
该数据集解决了数学教育领域中的学术研究问题,如如何通过大数据训练出能够理解并解决复杂数学问题的模型。NuminaMath 1.5不仅包含了标准答案,还提供了问题类型和问题风格的元数据,有助于研究者分析不同类型数学问题的解决策略,进而推动数学教育技术的发展。
衍生相关工作
基于NuminaMath 1.5数据集,学术界和工业界已经衍生出了一系列相关工作。这些工作涉及利用该数据集进行数学问题解答模型的训练与评估,以及探索数学问题解决的新方法和技术,进一步推动了数学教育技术领域的研究与应用。
以上内容由遇见数据集搜集并总结生成



