AI-MO-NuminaMath-CoT-korean-240905|数学教育数据集|思维训练数据集
收藏NuminaMath CoT Korean 数据集
数据集描述
-
数据集概述: 约86万道数学题,每道题的解答以Chain of Thought (CoT) 格式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括:(a) 从原始PDF进行OCR识别,(b) 分割成问题-解答对,(c) 翻译成英文,(d) 重新对齐以生成CoT推理格式,(e) 最终答案格式化。
-
语言:
- 英语 (en)
- 韩语 (ko)
-
任务类别:
- 文本生成
-
标签:
- aimo
- math
-
主页: https://projectnumina.ai
-
仓库: https://github.com/project-numina/aimo-progress-prize
-
论文: https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf
-
翻译代码: https://github.com/GyoukChu/AIMO-ko
翻译信息
- 翻译工具: 使用 solar-1-mini-translate-enko-240507 进行翻译。详细脚本请参考上述GitHub仓库链接(目前为私有仓库)。
数据来源细分
来源 | 样本数量 |
---|---|
aops_forum | 30201 |
amc_aime | 4072 |
cn_k12 | 276591 |
gsm8k | 7345 |
math | 7478 |
olympiads | 150581 |
orca_math | 153334 |
synthetic_amc | 62111 |
synthetic_math | 167895 |
总计 | 859608 |
许可信息
- 许可协议: 该数据集遵循 Creative Commons NonCommercial (CC BY-NC 4.0) 许可。
引用信息
@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }

Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录