AIME2025-ko
收藏Hugging Face2025-06-04 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/allganize/AIME2025-ko
下载链接
链接失效反馈官方服务:
资源简介:
AIME2025-ko是一个针对AIME-2025(美国数学邀请赛)基准的韩语改编版,原用于lighteval框架。这个版本旨在使用lighteval框架评估大型语言模型(LLM)在韩语中的数学推理能力。数据集包含30个数学推理问题。
提供机构:
allganize
创建时间:
2025-06-04
搜集汇总
数据集介绍

构建方式
AIME2025-ko数据集作为美国数学邀请赛(AIME)基准的韩语版本,其构建过程体现了跨语言知识迁移的严谨性。原始英文题目经由GPT-4.1进行初步翻译后,由专业团队进行人工校验,确保数学术语的准确性和题目逻辑的完整性。数据集包含30道数学推理题,每道题均保留原始AIME2025的年份标注和在线资源链接,形成包含问题陈述、英文提示、标准答案及解题步骤的结构化数据。
特点
该数据集最显著的特点是实现了高阶数学能力评估的本土化适配,所有题目均转化为符合韩语表达习惯的学术文本。每个样本包含完整的解题链信息,其中prompt_en字段保留英文原题,便于跨语言模型对比研究。数据集采用轻量级设计,仅32KB体积却涵盖代数、几何等多元数学领域,特别适合评估大语言模型在非英语语境下的符号推理能力。
使用方法
研究者可通过lighteval框架快速部署评估流程,使用vllm后端加载模型时需指定max_model_length等关键参数。数据集配套的custom_tasks.py脚本封装了标准化评估逻辑,支持通过命令行直接调用Qwen等开源模型进行测试。对于需要定制化评估的场景,用户可参照lighteval文档配置YAML文件,灵活调整温度系数等超参数以获得更全面的模型能力分析。
背景与挑战
背景概述
AIME2025-ko数据集是韩国Allganize公司LLM团队基于美国数学邀请赛(AIME)2025基准开发的一个韩语数学推理评估数据集。该数据集旨在评估大型语言模型(LLM)在韩语环境下的数学推理能力,由Seungwoo Ryu等研究人员主导完成。作为AIME基准的韩语版本,它不仅延续了原版对高阶数学思维的考察,还通过人工验证的GPT-4.1翻译,确保了语言表达的精确性。这一数据集的推出为韩语自然语言处理领域提供了重要的评估工具,尤其对多语言数学推理模型的发展具有推动作用。
当前挑战
AIME2025-ko数据集面临的挑战主要体现在两个方面:在领域问题层面,数学推理本身需要模型具备复杂的逻辑推导和符号运算能力,而韩语特有的语法结构和数学术语体系进一步增加了模型理解的难度;在构建过程中,如何保持原版数学问题的严谨性同时实现自然流畅的韩语转换,以及仅通过30个样本全面覆盖多样化的数学概念,都是团队需要克服的技术难题。
常用场景
经典使用场景
在数学推理领域,AIME2025-ko数据集作为韩语版本的AIME数学基准测试,主要用于评估大型语言模型(LLMs)在韩语环境下的数学推理能力。通过提供30道精心翻译的数学问题,该数据集为研究者提供了一个标准化的测试平台,用于验证模型在解决复杂数学问题时的准确性和逻辑性。
衍生相关工作
围绕AIME2025-ko数据集,已衍生出多项相关研究工作。其中最具代表性的是基于lighteval框架的多语言模型评估体系,该体系扩展了原始AIME基准的应用范围。此外,该数据集还促进了韩语数学问题生成、跨语言数学能力迁移等研究方向的发展。
数据集最近研究
最新研究方向
在数学推理与多语言大模型评估领域,AIME2025-ko数据集的推出为研究者提供了一个全新的视角。该数据集作为AIME-2025基准的韩语版本,专注于评估大型语言模型在非英语环境下的数学问题解决能力。随着全球范围内对多语言模型性能的关注度不断提升,如何准确衡量模型在特定语言和文化背景下的推理能力成为研究热点。AIME2025-ko的出现填补了韩语数学评估数据的空白,为比较不同语言模型在复杂数学问题上的表现提供了标准化工具。其手动验证的翻译过程确保了问题的准确性和文化适应性,这对于研究语言模型在跨语言迁移学习中的表现具有重要意义。
以上内容由遇见数据集搜集并总结生成



