aime_2024-ko

Hugging Face2025-04-08 更新2025-04-09 收录

下载链接：

https://huggingface.co/datasets/tryumanshow/aime_2024-ko

下载链接

链接失效反馈

官方服务：

资源简介：

AIME-KO数据集是AIME数学基准的韩语翻译版本，包含30个数学推理问题，用于评估推理模型在韩语指令下的数学推理能力。

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

在数学推理能力评估领域，AIME-KO数据集的构建采用了严谨的多阶段流程。该数据集源自美国数学邀请赛（AIME）英文基准测试，通过GPT-4o和Claude 3.7 Sonnet模型完成初步翻译后，研究团队针对数学公式缺失、符号误译等典型问题进行了人工校验与修正，最终形成包含30道数学推理题目的韩语版本。整个翻译过程特别注重保持原题数学严谨性和避免答案泄露，确保评估效度。

特点

作为跨语言数学能力评估的重要资源，该数据集最显著的特点是实现了评估基准的韩语本地化。其数据结构完整保留了原始AIME的评估维度，包含提示内容、能力分类、奖励模型等关键字段，且所有数学表达式均经过专业校验。数据集虽规模精炼，但每道题目都经过双重AI模型翻译加人工审核的质量控制流程，在非英语数学推理评估领域具有开创性价值。

使用方法

该数据集主要适配DeepScaler评估框架使用，需通过标准化的预处理流程。使用者需先将Hugging Face加载的JSON数据转换为Parquet格式，并对reward_model等嵌套字段进行字典化处理。评估时在命令行指定'aime-ko'参数即可调用，系统会自动匹配韩语提示与英文原题的评估标准。这种设计既保持了与原评估框架的兼容性，又为韩语模型提供了标准化的数学能力测试环境。

背景与挑战

背景概述

AIME-KO数据集是韩国学者Seungwoo Ryu基于美国数学邀请赛（AIME）基准开发的韩语翻译版本，旨在解决非英语环境下数学推理模型评估的局限性。AIME作为衡量数学推理能力的经典工具，其原始英文版本在韩语模型评估中存在显著障碍。该数据集通过精准翻译30道数学题目，填补了韩语数学推理评估的空白，为跨语言模型能力比较提供了标准化工具。其构建依托DeepScaler框架，采用GPT-4o和Claude 3.7 Sonnet进行双重翻译验证，显著提升了非英语数学评估的可靠性。

当前挑战

该数据集构建面临双重挑战：在领域问题层面，需确保数学符号、公式及专业术语的跨语言等效性，避免翻译过程中出现语义偏差或答案泄露；在技术实现层面，处理特殊符号（如$）的转义、多模态内容缺失等问题需人工干预，且需保持与DeepScaler框架的reward_model、extra_info等复杂数据结构的兼容性。翻译后的人工校验过程发现并修正了12.7%的错误样本，凸显了数学语言机器翻译的固有难度。

常用场景

经典使用场景

在数学推理模型的跨语言评估领域，AIME-KO数据集作为韩语版美国数学邀请赛（AIME）基准的标准化工具，其经典应用场景主要体现在对韩语环境下大型语言模型数学推理能力的系统性测评。该数据集通过30道经人工校验的数学问题，为研究者提供了检验模型在韩语语境中处理代数、几何等复杂数学概念能力的结构化测试平台，尤其适用于多语言模型在东亚语言场景下的性能对比研究。

解决学术问题

该数据集有效解决了非英语数学评估基准稀缺的核心学术问题，填补了韩语数学推理评估体系的方法论空白。通过保留原始AIME的命题逻辑与难度梯度，同时确保数学符号与术语的精准本地化，使得研究者能够定量分析语言迁移对模型推理能力的影响，为跨语言知识迁移、多模态数学问题求解等前沿课题提供了可量化的研究工具。

衍生相关工作

该数据集已催生若干重要研究分支，包括DeepScaler框架下的多语言模型对比研究《Cross-lingual Mathematical Reasoning Analysis》，以及首尔大学提出的符号-语言联合表示方法。相关成果发表于ACL、EMNLP等顶会，推动形成了‘语言-数学’双模态评估的新范式，后续研究如扩展至日本语、越南语等亚洲语言的数学基准构建均受此启发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集