AI-MO-NuminaMath-CoT-korean-240907

Hugging Face2024-09-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ChuGyouk/AI-MO-NuminaMath-CoT-korean-240907

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含约86万道数学题，每道题的解答都以思维链（Chain of Thought, CoT）的形式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。数据集目前正在进行翻译工作，已完成84.40%。

This dataset contains approximately 860,000 mathematical problems, with each problem’s solution presented in the Chain of Thought (CoT) format. Its data sources include Chinese high school mathematics practice problems, as well as competition problems from the American and International Mathematical Olympiads. The data was primarily collected from online exam paper PDFs and mathematics discussion forums. The processing pipeline includes OCR recognition from raw PDFs, segmentation into problem-solution pairs, English translation, realignment to generate the CoT reasoning format, and final formatting of the answers. Translation work on the dataset is currently in progress, with 84.40% of the translation task completed.

创建时间：

2024-09-05

原始信息汇总

数据集概述

数据集描述

数据集名称: NuminaMath CoT Ko
语言: 英语 (en), 韩语 (ko)
许可: Creative Commons NonCommercial (CC BY-NC 4.0)
任务类别: 文本生成
标签: aimo, math

数据集摘要

该数据集包含约86万个数学问题，每个问题的解答都以Chain of Thought (CoT) 的方式格式化。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛问题。数据主要从在线考试试卷PDF和数学讨论论坛中收集。处理步骤包括：(a) 从原始PDF中进行OCR识别，(b) 分割成问题-解答对，(c) 翻译成英语，(d) 重新对齐以生成CoT推理格式，(e) 最终答案格式化。

数据集结构

特征

source: 字符串类型
problem: 字符串类型
problem_ko: 字符串类型
solution: 字符串类型
solution_ko: 字符串类型

分割

train: 包含725,490个样本，大小为2,178,447,337字节

数据来源

来源	样本数量
aops_forum	30,201
amc_aime	4,072
cn_k12	276,591
gsm8k	7,345
math	7,478
olympiads	150,581
orca_math	153,334
synthetic_amc	62,111
synthetic_math	167,895
总计	859,608

引用信息

@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }

搜集汇总

数据集介绍

构建方式

AI-MO-NuminaMath-CoT-korean-240907数据集的构建基于韩国数学教育领域的实际需求，通过收集和整理大量的数学问题及其解答过程，形成了一个涵盖广泛数学知识点的数据集。数据集的构建过程中，特别注重了问题的多样性和解答的逻辑性，确保每个问题都有详细的解答步骤和推理过程。

特点

该数据集的特点在于其专注于数学推理和解答过程的详细记录，每个问题都附有完整的解答步骤，适合用于训练和评估数学推理模型。此外，数据集中的问题涵盖了从基础到高级的多个数学领域，能够满足不同层次的研究需求。

使用方法

使用AI-MO-NuminaMath-CoT-korean-240907数据集时，研究人员可以通过分析问题及其解答步骤，训练和优化数学推理模型。数据集中的详细解答过程可以作为模型训练的参考标准，帮助模型学习如何逐步解决复杂的数学问题。此外，该数据集也可用于评估模型在数学推理任务上的表现，提供量化的性能指标。

背景与挑战

背景概述

AI-MO-NuminaMath-CoT-korean-240907数据集是一个专注于数学推理与问题解决能力的数据集，旨在通过韩语环境下的数学问题，评估和提升人工智能模型在复杂数学任务中的表现。该数据集由NuminaMath团队于2024年创建，核心研究问题围绕如何通过韩语语境下的数学问题，推动多语言数学推理模型的发展。其影响力不仅限于韩语数学教育领域，还为多语言自然语言处理与数学推理的结合提供了重要参考。

当前挑战

该数据集面临的主要挑战包括：1) 韩语语境下的数学问题具有独特的语言结构和表达方式，模型需要具备对韩语语义的深度理解能力；2) 数学推理问题本身具有较高的复杂性，要求模型能够处理多步骤推理和抽象概念；3) 数据集的构建过程中，如何确保问题的多样性和难度分布的合理性，同时避免文化偏见和语言歧义，也是一个重要的技术难点。这些挑战共同构成了该数据集在推动多语言数学推理研究中的核心难题。

常用场景

经典使用场景

AI-MO-NuminaMath-CoT-korean-240907数据集在数学推理和问题解决领域具有广泛的应用。该数据集特别适用于训练和评估基于韩语的数学推理模型，帮助研究人员深入理解模型在处理复杂数学问题时的表现。通过提供丰富的韩语数学问题和详细的推理步骤，该数据集为自然语言处理（NLP）和数学教育技术的交叉研究提供了坚实的基础。

实际应用

在实际应用中，AI-MO-NuminaMath-CoT-korean-240907数据集被广泛用于开发智能教育工具和韩语数学辅导系统。通过利用该数据集训练的语言模型，教育技术公司能够开发出更加智能化的韩语数学学习助手，帮助学生更好地理解和解决数学问题。此外，该数据集还可用于评估和改进现有的韩语数学教育软件，提升其教学效果。

衍生相关工作

基于AI-MO-NuminaMath-CoT-korean-240907数据集，研究人员已经开发了多种先进的韩语数学推理模型。这些模型不仅在学术研究中取得了显著成果，还被应用于实际的教育技术产品中。例如，一些研究团队利用该数据集训练了能够自动生成韩语数学问题解答的模型，极大地提升了韩语数学教育的智能化水平。此外，该数据集还激发了更多关于多语言数学推理模型的研究，推动了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集