【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
NuminaMath-LEAN
收藏NuminaMath-LEAN 数据集概述
数据集摘要
- NuminaMath-LEAN 是一个包含10万条数学竞赛问题的大规模数据集,使用Lean 4形式化。
- 数据来源于NuminaMath 1.5数据集的挑战性子集,聚焦于IMO和USAMO等知名竞赛问题。
- 该数据集是最大规模的人工标注形式化语句和证明集合,用于训练和评估自动定理证明器。
数据特征
uuid: 字符串类型,唯一标识符。problem: 字符串类型,问题描述。question_type: 字符串类型,问题类型。answer: 字符串类型,答案。author: 字符串类型,形式化语句的作者(autoformalizer或human)。formal_statement: 字符串类型,Lean 4中的形式化语句。formal_ground_truth: 字符串类型,人工标注的形式化证明(仅当author == human时可用)。ground_truth_type: 字符串类型,标注状态(complete、with_sorry或statement)。formal_proof: 字符串类型,模型在RL训练中生成的形式化证明(仅在模型成功证明时可用)。rl_data: 结构体,包含RL训练信息:n_correct_proofs: 整型,模型成功解决问题的次数。n_proofs: 整型,模型尝试解决问题的次数。win_rate: 浮点型,成功率(n_correct_proofs / n_proofs)。
source: 字符串类型,问题来源。problem_type: 字符串类型,问题类型。exam: 字符串类型,考试名称。
数据拆分
train: 包含104,155个示例,总大小为171,546,775字节。
方法
- 从NuminaMath 1.5数据集中筛选最具挑战性的部分,移除
cn_k12和非数学竞赛问题。 - 过滤掉
geometry和combinatorics问题,因其形式化难度较高。 - 新增
olympiads-ref子集,包含IMO、IMO短列表、USAMO等竞赛问题。
兼容性
- 所有形式化内容均基于Lean 4编写,并在mathlib v4.15.0中验证。
局限性
- 部分元数据缺失(如
question_type)。 - 部分参考答案提取错误。
- 部分形式化语句不准确(主要因autoformalizer的限制)。
许可信息
- 数据集采用Apache License, Version 2.0许可。
引用信息
bibtex @article{kimina_prover_2025, title = {Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning}, author = {Wang, Haiming and Unsal, Mert and Lin, Xiaohan and Baksys, Mantas and Liu, Junqi and Santos, Marco Dos and Sung, Flood and Vinyes, Marina and Ying, Zhenzhe and Zhu, Zekai and Lu, Jianqiao and Saxcé, Hugues de and Bailey, Bolton and Song, Chendong and Xiao, Chenjun and Zhang, Dehao and Zhang, Ebony and Pu, Frederick and Zhu, Han and Liu, Jiawei and Bayer, Jonas and Michel, Julien and Yu, Longhui and Dreyfus-Schmidt, Léo and Tunstall, Lewis and Pagani, Luigi and Machado, Moreira and Bourigault, Pauline and Wang, Ran and Polu, Stanislas and Barroyer, Thibaut and Li, Wen-Ding and Niu, Yazhe and Fleureau, Yann and Hu, Yangyang and Yu, Zhouliang and Wang, Zihan and Yang, Zhilin and Liu, Zhengying and Li, Jia}, year = {2025}, url = {http://arxiv.org/abs/2504.11354}, }




