five

AI-MO-NuminaMath-CoT-korean-240905

收藏
Hugging Face2024-09-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ChuGyouk/AI-MO-NuminaMath-CoT-korean-240905
下载链接
链接失效反馈
官方服务:
资源简介:
数据集包含约86万道数学题,每道题的解答都以思维链(Chain of Thought, CoT)的方式格式化。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。数据集目前正在进行翻译,已完成63.80%。
创建时间:
2024-09-05
原始信息汇总

NuminaMath CoT Korean 数据集

数据集描述

  • 数据集概述: 约86万道数学题,每道题的解答以Chain of Thought (CoT) 格式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括:(a) 从原始PDF进行OCR识别,(b) 分割成问题-解答对,(c) 翻译成英文,(d) 重新对齐以生成CoT推理格式,(e) 最终答案格式化。

  • 语言:

    • 英语 (en)
    • 韩语 (ko)
  • 任务类别:

    • 文本生成
  • 标签:

    • aimo
    • math
  • 主页: https://projectnumina.ai

  • 仓库: https://github.com/project-numina/aimo-progress-prize

  • 论文: https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf

  • 翻译代码: https://github.com/GyoukChu/AIMO-ko

翻译信息

  • 翻译工具: 使用 solar-1-mini-translate-enko-240507 进行翻译。详细脚本请参考上述GitHub仓库链接(目前为私有仓库)。

数据来源细分

来源 样本数量
aops_forum 30201
amc_aime 4072
cn_k12 276591
gsm8k 7345
math 7478
olympiads 150581
orca_math 153334
synthetic_amc 62111
synthetic_math 167895
总计 859608

许可信息

引用信息

@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }

搜集汇总
数据集介绍
main_image_url
构建方式
AI-MO-NuminaMath-CoT-korean-240905数据集的构建过程体现了对数学问题解决能力的深度探索。该数据集通过收集和整理韩语环境下的数学问题,结合思维链(Chain of Thought)方法,构建了一个包含详细解题步骤的问答对集合。数据来源包括韩国的数学教材、在线教育平台以及专家设计的题目,确保了数据的多样性和代表性。每个问题都经过人工审核,确保其逻辑严谨性和语言准确性。
特点
该数据集的特点在于其专注于韩语环境下的数学问题,并结合了思维链方法,提供了详细的解题步骤。这使得数据集不仅适用于数学问题的自动解答,还能用于研究解题过程中的逻辑推理和语言表达。数据集中包含多种类型的数学问题,涵盖了从基础算术到高等数学的广泛领域,适合不同层次的研究需求。此外,数据集的语言为韩语,为韩语自然语言处理任务提供了宝贵的资源。
使用方法
AI-MO-NuminaMath-CoT-korean-240905数据集的使用方法多样,适用于多种自然语言处理和数学问题解答任务。研究人员可以利用该数据集训练和评估数学问题解答模型,特别是那些需要结合思维链推理的模型。此外,该数据集还可用于研究韩语环境下的数学教育,分析解题过程中的语言表达和逻辑推理。使用该数据集时,建议结合具体的任务需求,选择合适的模型和评估指标,以充分发挥其价值。
背景与挑战
背景概述
AI-MO-NuminaMath-CoT-korean-240905数据集是在2024年9月5日由AI-MO团队创建的,旨在解决数学推理任务中的语言理解和逻辑推理问题。该数据集特别针对韩语环境下的数学问题,涵盖了从基础算术到复杂代数等多个层次的数学题目。通过结合韩语的自然语言处理技术,该数据集为研究者在多语言数学推理领域提供了宝贵的资源。AI-MO团队由多位在人工智能和自然语言处理领域具有深厚背景的研究人员组成,他们的工作显著推动了韩语数学推理模型的发展。
当前挑战
AI-MO-NuminaMath-CoT-korean-240905数据集面临的挑战主要包括两个方面。首先,韩语作为一种形态丰富的语言,其语法结构和表达方式与英语等语言有显著差异,这增加了模型在理解和生成数学问题时的复杂性。其次,数学推理本身需要高度的逻辑性和精确性,如何在韩语环境中准确捕捉和表达这些逻辑关系,是构建该数据集时的一大难题。此外,数据集的构建过程中还需确保题目的多样性和难度层次的合理分布,以全面评估模型的性能。
常用场景
经典使用场景
AI-MO-NuminaMath-CoT-korean-240905数据集在数学推理和问题解决领域具有重要应用,尤其是在韩语环境下的数学教育研究中。该数据集通过提供丰富的韩语数学问题和详细的推理步骤,支持研究人员开发和测试基于韩语的数学推理模型。经典使用场景包括在自然语言处理(NLP)任务中,用于训练和评估模型在韩语数学问题上的表现,特别是在多步推理和复杂问题求解方面。
解决学术问题
该数据集解决了韩语数学问题推理中的关键挑战,如语言与数学符号的结合、多步推理的建模以及跨语言数学推理的迁移学习问题。通过提供高质量的韩语数学问题和详细的推理步骤,研究人员能够更好地理解韩语数学问题的结构,并开发出更高效的推理模型。这不仅推动了韩语数学教育技术的发展,也为跨语言数学推理研究提供了宝贵的资源。
衍生相关工作
基于AI-MO-NuminaMath-CoT-korean-240905数据集,研究人员已经开发了多种先进的数学推理模型和算法。例如,一些研究利用该数据集训练了基于Transformer的韩语数学推理模型,显著提高了模型在韩语数学问题上的表现。此外,该数据集还促进了跨语言数学推理研究的发展,推动了韩语与其他语言之间的数学推理模型迁移学习技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作