ytu-ce-cosmos/aime24-tr

Name: ytu-ce-cosmos/aime24-tr
Creator: ytu-ce-cosmos
Published: 2026-05-06 16:44:38
License: 暂无描述

Hugging Face2026-05-06 更新2026-01-03 收录

下载链接：

https://hf-mirror.com/datasets/ytu-ce-cosmos/aime24-tr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2024年美国数学邀请赛(AIME)问题的土耳其语翻译版本，旨在作为评估大型语言模型(LLMs)在土耳其语中高级数学推理能力的基准。问题使用GPT-5翻译成土耳其语，并经过人工验证和修正。AIME是介于AMC 10/12和USAMO之间的中级考试，题目比标准高中数学更难，需要创造性解决问题和对算术、代数、计数、几何、数论和概率的深入理解。每个数据集条目代表AIME 2024竞赛中的一个具体问题，包含问题的唯一标识符、土耳其语的问题文本和正确答案。数据集特别适用于在土耳其语中进行硬性多步推理任务的基准测试和思维链(CoT)评估。原始问题来源于美国数学协会(MAA)组织的数学竞赛，数据集仅供研究和教育用途。

This dataset contains the Turkish translations of problems from the 2024 American Invitational Mathematics Examination (AIME). It is intended to serve as a benchmark for evaluating the advanced mathematical reasoning capabilities of Large Language Models (LLMs) in the Turkish language. The questions were translated into Turkish using GPT-5 and subsequently manually verified and corrected. The AIME is an intermediate examination between the AMC 10/12 and the USAMO. The problems are designed to be much more difficult than standard high school mathematics, requiring creative problem-solving and deep understanding of arithmetic, algebra, counting, geometry, number theory, and probability. Each entry in the dataset represents a specific problem from the AIME 2024 competition, containing the unique identifier, the problem text in Turkish, and the correct answer. The dataset is particularly useful for benchmarking hard, multi-step reasoning tasks in Turkish and for Chain-of-Thought (CoT) evaluation. The original problems are sourced from the mathematical competitions organized by the Mathematical Association of America (MAA), and the dataset is provided for research and educational purposes.

提供机构：

ytu-ce-cosmos

搜集汇总

数据集介绍

构建方式

AIME 2024土耳其语数据集源自2024年美国数学邀请赛（AIME）的试题，经过GPT-5模型翻译为土耳其语后，由人工进行逐题校验与修正，并辅以系统性质量检查以识别格式错误、LaTeX不一致及歧义翻译，从而确保高保真度与语言学准确性。该竞赛作为AMC 10/12与USAMO之间的桥梁，题目难度远超标准高中数学，涉及算术、代数、组合数学、几何、数论与概率等领域的创造性求解。每一条记录包含唯一的题目编号、完整的土耳其语试题文本以及介于000至999之间的整数答案。

特点

该数据集的核心特色在于其作为土耳其语高级数学推理基准的专精性，为评估大型语言模型在多步骤数学推理任务中的表现提供了挑战性平台。由于AIME题目设计极具深度与复杂度，模型难以通过简单记忆获取正确答案，从而能有效衡量其真正的推理能力。此外，数据集支持链式思维（CoT）评估，能够深入分析模型在非英语环境下生成严谨推理步骤的表现，填补了土耳其语高难度数学推理评估资源的空白。

使用方法

该数据集主要应用于两大场景：其一，作为跨语言基准测试工具，评估大型语言模型在土耳其语环境下处理复杂数学推理任务的能力；其二，用于链式思维推理的进阶分析，考察模型是否能够生成连贯且严谨的解题步骤。研究人员可直接利用HuggingFace平台加载数据集，将问题文本输入模型，并对比输出答案与标准整数解（000-999）的匹配度，从而量化模型的数学推理性能。

背景与挑战

背景概述

在大型语言模型（LLM）的评估体系中，数学推理能力被视为衡量模型智能水平的关键维度。AIME（美国数学邀请赛）作为一项高难度数学竞赛，其题目通常需要参赛者具备深厚的代数、几何、数论与组合数学知识，以及创造性问题解决能力。然而，现有的数学推理基准大多集中于英语，非英语语言环境下的高阶推理评估仍属空白。为此，COSMOS AI研究团队（隶属于伊尔迪兹技术大学计算机工程系）于2024年创建了aime24-tr数据集，将2024年AIME竞赛的全部题目翻译为土耳其语，并经人工校对与质量审查，旨在为土耳其语场景下的LLM数学推理能力提供可靠的评测基准。该数据集虽规模较小（不足1000条），但因其题目难度极高，对模型的链式推理与跨语言泛化能力构成了严峻挑战，有望推动多语言数学推理研究的发展。

当前挑战

该数据集所面临的挑战首先源于其核心任务——数学推理——的固有复杂性。AIME题目并非简单的数学计算，而是需要多步推理与创造性思维，模型必须能够理解复杂的数学结构、正确应用定理，并生成逻辑连贯的解题步骤，这对当前LLM的符号推理与抽象能力提出了极高要求。此外，数据集构建过程中的翻译挑战也不容忽视：虽然采用GPT-5进行初始翻译，但数学术语的精准对应、公式中LaTeX语法的一致性，以及跨语言导致的概念歧义等问题，均需要人工逐题校验与修正。即使经过多轮质量检查，翻译质量仍可能影响模型的推理表现，从而对结果的解读造成干扰。如何在构建过程中确保翻译忠实于原题意图、维持复杂的数学逻辑结构，是该数据集在数据层面需要持续关注的核心难点。

常用场景

经典使用场景

该数据集最为经典的使用场景在于对大型语言模型（LLM）进行土耳其语高级数学推理能力的基准测试。由于题目源自美国邀请赛数学考试（AIME），其难度远超常规高中数学，涉及算术、代数、几何、数论与概率等多领域，要求模型具备深度理解与创造性解题能力。研究者常利用该数据集评估模型在非英语环境下处理复杂、多步推理任务的表现，尤其适合验证模型是否依赖记忆而非真正的逻辑推演。

实际应用

实际应用层面，该数据集可服务于多语言教育科技产品的开发与评估。例如，土耳其本土的智能辅导系统可利用本数据集训练或测试其数学题解答模块，确保系统能够以母语提供准确的推理指导。此外，该数据还可用于构建跨语言竞赛数学题库，辅助教师生成多语言教学材料，或为国际数学竞赛的翻译质量提供自动化校验基准。其在土耳其STEM教育中的落地，有助于弥合语言障碍带来的学习资源差距。

衍生相关工作

基于该数据集，已衍生出若干经典工作。研究者将其与英语原版AIME数据结合，构建多语言对比基准，分析LLM在翻译后数学问题上的性能衰减。同时，有工作利用该数据微调土耳其语专用数学推理模型，并探索利用对抗性翻译扰动提升模型鲁棒性。此外，该数据集还被用于验证新型链式思维解码策略在非英语推理任务中的有效性，推动了诸如“语言无关推理器”等前沿概念的形成，为多模态数学智能体的研发奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集