AI-MO-NuminaMath-CoT-korean-240905
收藏NuminaMath CoT Korean 数据集
数据集描述
-
数据集概述: 约86万道数学题,每道题的解答以Chain of Thought (CoT) 格式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括:(a) 从原始PDF进行OCR识别,(b) 分割成问题-解答对,(c) 翻译成英文,(d) 重新对齐以生成CoT推理格式,(e) 最终答案格式化。
-
语言:
- 英语 (en)
- 韩语 (ko)
-
任务类别:
- 文本生成
-
标签:
- aimo
- math
-
主页: https://projectnumina.ai
-
仓库: https://github.com/project-numina/aimo-progress-prize
-
论文: https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf
-
翻译代码: https://github.com/GyoukChu/AIMO-ko
翻译信息
- 翻译工具: 使用 solar-1-mini-translate-enko-240507 进行翻译。详细脚本请参考上述GitHub仓库链接(目前为私有仓库)。
数据来源细分
| 来源 | 样本数量 |
|---|---|
| aops_forum | 30201 |
| amc_aime | 4072 |
| cn_k12 | 276591 |
| gsm8k | 7345 |
| math | 7478 |
| olympiads | 150581 |
| orca_math | 153334 |
| synthetic_amc | 62111 |
| synthetic_math | 167895 |
| 总计 | 859608 |
许可信息
- 许可协议: 该数据集遵循 Creative Commons NonCommercial (CC BY-NC 4.0) 许可。
引用信息
@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }




