aime24-tr
收藏Hugging Face2025-12-25 更新2025-12-26 收录
下载链接:
https://huggingface.co/datasets/ytu-ce-cosmos/aime24-tr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2024年美国数学邀请赛(AIME)问题的土耳其语翻译,旨在评估大型语言模型(LLMs)在土耳其语中的高级数学推理能力。问题由GPT-5翻译并经过人工验证和修正。AIME是介于AMC 10/12和USAMO之间的中级考试,题目比标准高中数学更难,需要创造性的问题解决和对算术、代数、计数、几何、数论和概率的深入理解。数据集结构包括每个问题的索引、问题描述和答案。该数据集特别适用于基准测试和链式思维(CoT)评估,用于测试LLMs在土耳其语中复杂的多步推理任务中的表现。
提供机构:
Yildiz Technical University Computer Engineering Department Cosmos Research Group
创建时间:
2025-12-25
原始信息汇总
AIME 2024 (Turkish) 数据集概述
数据集基本信息
- 数据集名称: AIME 2024 Turkish Dataset
- 主要语言: 土耳其语 (tr)
- 许可证: other
- 任务类别: 问答、文本生成
- 标签: 数学、推理、stem、竞赛数学
- 数据规模: n<1K
数据集描述
本数据集包含2024年美国数学邀请赛 (AIME) 试题的土耳其语翻译。其旨在作为一个基准,用于评估大型语言模型 (LLMs) 在土耳其语中的高级数学推理能力。
试题使用GPT-5翻译成土耳其语,并随后进行了人工验证和修正。
AIME是介于AMC 10/12和USAMO之间的中级考试。其试题设计难度远超标准高中数学,需要创造性的问题解决能力以及对算术、代数、计数、几何、数论和概率的深刻理解。
数据结构
数据集中的每个条目代表AIME 2024竞赛中的一个具体问题。
- 索引: 问题的唯一标识符或编号(例如,1, 2, ...)。
- 问题: 数学问题的完整土耳其语文本陈述。
- 答案: 正确的整数解(AIME答案始终是000到999之间的整数)。
主要用途
- 基准测试: 在土耳其语的困难、多步骤推理任务上测试LLMs,与更简单的基准相比,记忆更不可能产生正确结果。
- 思维链 (CoT) 评估: 分析模型在非英语语言中生成有效证明步骤的性能。
来源与许可
原始问题来源于美国数学协会 (MAA) 组织的数学竞赛。本数据集根据合理使用原则提供,用于研究和教育目的。
有关竞赛的更多信息,请访问官方MAA网站: https://maa.org/competitions/aime
联系方式
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department https://cosmos.yildiz.edu.tr/ cosmos@yildiz.edu.tr
搜集汇总
数据集介绍

构建方式
在数学推理领域,构建高质量的多语言数据集对于评估大型语言模型的跨文化认知能力至关重要。AIME 2024土耳其语数据集通过将2024年美国数学邀请赛的原始题目翻译为土耳其语而创建,翻译过程首先采用GPT-5进行自动化处理,随后由人工专家进行验证与修正,确保语言表达的准确性与数学逻辑的完整性。这一双重校验机制有效保障了翻译文本在专业术语和语境上的一致性,为土耳其语数学推理研究提供了可靠的基础资源。
使用方法
研究人员可将该数据集应用于大型语言模型的性能基准测试,特别是在土耳其语环境下的数学推理能力评估。通过设计链式思维或分步解题实验,能够深入分析模型在生成逻辑证明步骤时的有效性。数据集适用于教育技术、多语言人工智能系统开发等领域,使用时需遵循原始竞赛组织的许可协议,确保仅用于研究与教育目的,从而推动跨语言数学智能研究的持续发展。
背景与挑战
背景概述
在人工智能与自然语言处理领域,数学推理能力被视为衡量大语言模型智能水平的关键维度。AIME 2024土耳其语数据集应运而生,由伊斯坦布尔耶尔德兹技术大学计算机工程系的COSMOS AI研究小组于2024年创建,旨在填补非英语环境下高级数学问题求解基准的空白。该数据集基于美国数学协会主办的美国数学邀请赛2024年试题,经由GPT-5初步翻译并辅以人工校验,转化为土耳其语版本。其核心研究问题聚焦于评估大语言模型在土耳其语语境中处理复杂多步数学推理任务的性能,涉及算术、代数、几何及数论等多个数学分支,对推动多语言STEM教育及跨文化人工智能研究具有显著影响力。
当前挑战
该数据集致力于解决数学问题自动解答领域的挑战,特别是针对非英语语言环境下高级推理能力的评估。具体挑战包括:在领域问题层面,如何确保模型不仅依赖记忆,而是通过深层逻辑推理生成准确答案,同时克服多步骤问题求解中常见的错误累积现象;在构建过程中,面临高质量翻译的难题,需保持原题数学严谨性与语言自然度,并需人工校对以纠正机器翻译可能引入的语义偏差或文化不匹配,此外还需维护知识产权合规性,确保在合理使用原则下进行学术应用。
常用场景
经典使用场景
在自然语言处理领域,评估大型语言模型在非英语环境下的高级数学推理能力是一个重要研究方向。AIME 2024土耳其数据集作为专业数学竞赛题目的翻译版本,为研究者提供了标准化的测试平台。该数据集常用于模型在土耳其语语境中的多步骤问题求解性能评估,特别是针对需要创造性思维和深度数学理解的复杂任务。通过模拟真实竞赛场景,它帮助揭示模型在算术、代数、几何等核心数学领域的逻辑推理局限。
解决学术问题
该数据集有效解决了跨语言数学推理评估体系缺失的学术难题。传统数学基准多集中于英语语境,难以反映模型在语言特性迥异的土耳其语中的真实能力。通过提供经过人工校验的高质量翻译题目,研究者能够系统探究语言模型在非拉丁字母语言中的符号理解与逻辑演绎能力。这为多语言STEM教育技术开发提供了关键的数据支撑,推动了语言模型推理能力评估方法的标准化进程。
实际应用
在教育技术领域,该数据集可直接应用于智能辅导系统的开发。基于其构建的评估框架能够诊断AI系统在土耳其语数学问题解答中的薄弱环节,为个性化学习路径规划提供依据。竞赛培训机构可利用该数据集设计自适应训练方案,通过分析模型错误模式来优化解题策略教学。同时为多语言教育平台的内容本地化提供了质量参照标准,促进跨文化数学教育资源的高效转化。
数据集最近研究
最新研究方向
在数学推理与多语言大模型评估领域,AIME 2024土耳其数据集作为新兴基准,正推动非英语语境下高级数学问题求解的前沿探索。该数据集聚焦于大语言模型在土耳其语中的复杂推理能力,其问题源自美国数学邀请赛,经GPT-5翻译与人工校验,涵盖算术、几何、数论等深层次学科知识。当前研究热点集中于链式思维(CoT)评估框架的跨语言适配,旨在突破模型依赖记忆的局限,促进其在多步骤逻辑推导中的泛化性能。这一进展不仅丰富了STEM领域的多语言评估资源,也为低资源语言下的推理模型优化提供了关键参照,对全球数学教育智能化与公平性具有深远意义。
以上内容由遇见数据集搜集并总结生成



