AI-MO-NuminaMath-CoT-korean-240905|数学教育数据集|思维训练数据集

huggingface2024-09-05 更新2024-12-12 收录

数学教育

思维训练

下载链接：

https://huggingface.co/datasets/ChuGyouk/AI-MO-NuminaMath-CoT-korean-240905

下载链接

链接失效反馈

资源简介：

数据集包含约86万道数学题，每道题的解答都以思维链（Chain of Thought, CoT）的方式格式化。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。数据集目前正在进行翻译，已完成63.80%。

创建时间：

2024-09-05

原始信息汇总

NuminaMath CoT Korean 数据集

数据集描述

数据集概述: 约86万道数学题，每道题的解答以Chain of Thought (CoT) 格式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括：(a) 从原始PDF进行OCR识别，(b) 分割成问题-解答对，(c) 翻译成英文，(d) 重新对齐以生成CoT推理格式，(e) 最终答案格式化。
语言:
- 英语 (en)
- 韩语 (ko)
任务类别:
- 文本生成
标签:
- aimo
- math
主页: https://projectnumina.ai
仓库: https://github.com/project-numina/aimo-progress-prize
论文: https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf
翻译代码: https://github.com/GyoukChu/AIMO-ko

翻译信息

翻译工具: 使用 solar-1-mini-translate-enko-240507 进行翻译。详细脚本请参考上述GitHub仓库链接（目前为私有仓库）。

数据来源细分

来源	样本数量
aops_forum	30201
amc_aime	4072
cn_k12	276591
gsm8k	7345
math	7478
olympiads	150581
orca_math	153334
synthetic_amc	62111
synthetic_math	167895
总计	859608

许可信息

许可协议: 该数据集遵循 Creative Commons NonCommercial (CC BY-NC 4.0) 许可。

引用信息

@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }

AI搜集汇总

数据集介绍

构建方式

AI-MO-NuminaMath-CoT-korean-240905数据集的构建过程体现了对数学问题解决能力的深度探索。该数据集通过收集和整理韩语环境下的数学问题，结合思维链（Chain of Thought）方法，构建了一个包含详细解题步骤的问答对集合。数据来源包括韩国的数学教材、在线教育平台以及专家设计的题目，确保了数据的多样性和代表性。每个问题都经过人工审核，确保其逻辑严谨性和语言准确性。

特点

该数据集的特点在于其专注于韩语环境下的数学问题，并结合了思维链方法，提供了详细的解题步骤。这使得数据集不仅适用于数学问题的自动解答，还能用于研究解题过程中的逻辑推理和语言表达。数据集中包含多种类型的数学问题，涵盖了从基础算术到高等数学的广泛领域，适合不同层次的研究需求。此外，数据集的语言为韩语，为韩语自然语言处理任务提供了宝贵的资源。

使用方法

AI-MO-NuminaMath-CoT-korean-240905数据集的使用方法多样，适用于多种自然语言处理和数学问题解答任务。研究人员可以利用该数据集训练和评估数学问题解答模型，特别是那些需要结合思维链推理的模型。此外，该数据集还可用于研究韩语环境下的数学教育，分析解题过程中的语言表达和逻辑推理。使用该数据集时，建议结合具体的任务需求，选择合适的模型和评估指标，以充分发挥其价值。

背景与挑战

背景概述

AI-MO-NuminaMath-CoT-korean-240905数据集是在2024年9月5日由AI-MO团队创建的，旨在解决数学推理任务中的语言理解和逻辑推理问题。该数据集特别针对韩语环境下的数学问题，涵盖了从基础算术到复杂代数等多个层次的数学题目。通过结合韩语的自然语言处理技术，该数据集为研究者在多语言数学推理领域提供了宝贵的资源。AI-MO团队由多位在人工智能和自然语言处理领域具有深厚背景的研究人员组成，他们的工作显著推动了韩语数学推理模型的发展。

当前挑战

AI-MO-NuminaMath-CoT-korean-240905数据集面临的挑战主要包括两个方面。首先，韩语作为一种形态丰富的语言，其语法结构和表达方式与英语等语言有显著差异，这增加了模型在理解和生成数学问题时的复杂性。其次，数学推理本身需要高度的逻辑性和精确性，如何在韩语环境中准确捕捉和表达这些逻辑关系，是构建该数据集时的一大难题。此外，数据集的构建过程中还需确保题目的多样性和难度层次的合理分布，以全面评估模型的性能。

常用场景

经典使用场景

AI-MO-NuminaMath-CoT-korean-240905数据集在数学推理和问题解决领域具有重要应用，尤其是在韩语环境下的数学教育研究中。该数据集通过提供丰富的韩语数学问题和详细的推理步骤，支持研究人员开发和测试基于韩语的数学推理模型。经典使用场景包括在自然语言处理（NLP）任务中，用于训练和评估模型在韩语数学问题上的表现，特别是在多步推理和复杂问题求解方面。

解决学术问题

该数据集解决了韩语数学问题推理中的关键挑战，如语言与数学符号的结合、多步推理的建模以及跨语言数学推理的迁移学习问题。通过提供高质量的韩语数学问题和详细的推理步骤，研究人员能够更好地理解韩语数学问题的结构，并开发出更高效的推理模型。这不仅推动了韩语数学教育技术的发展，也为跨语言数学推理研究提供了宝贵的资源。

衍生相关工作

基于AI-MO-NuminaMath-CoT-korean-240905数据集，研究人员已经开发了多种先进的数学推理模型和算法。例如，一些研究利用该数据集训练了基于Transformer的韩语数学推理模型，显著提高了模型在韩语数学问题上的表现。此外，该数据集还促进了跨语言数学推理研究的发展，推动了韩语与其他语言之间的数学推理模型迁移学习技术的进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录