aime25-tr
收藏Hugging Face2025-12-25 更新2025-12-26 收录
下载链接:
https://huggingface.co/datasets/ytu-ce-cosmos/aime25-tr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2025年美国数学邀请赛(AIME)问题的土耳其语翻译,旨在作为评估大型语言模型(LLMs)在土耳其语中高级数学推理能力的基准。问题通过GPT-5翻译并经过人工验证和修正。AIME是一个介于AMC 10/12和USAMO之间的中级数学竞赛,其问题设计比标准高中数学更具挑战性,要求创造性解决问题和对算术、代数、计数、几何、数论和概率的深入理解。数据集中的每个条目代表AIME 2025竞赛中的一个具体问题,包括问题的唯一标识符、土耳其语问题文本和正确答案。
提供机构:
Yildiz Technical University Computer Engineering Department Cosmos Research Group
创建时间:
2025-12-25
原始信息汇总
AIME 2025 (Turkish) 数据集概述
数据集基本信息
- 数据集名称: AIME 2025 Turkish Dataset
- 主要语言: 土耳其语 (tr)
- 许可协议: other
- 任务类别: 问答、文本生成
- 标签: 数学、推理、stem、竞赛数学
- 规模类别: n<1K (少于1000个样本)
数据集内容与目的
该数据集包含2025年美国数学邀请赛 (AIME) 试题的土耳其语翻译。其主要目的是作为评估大型语言模型 (LLMs) 在土耳其语中高级数学推理能力的基准。试题使用GPT-5翻译成土耳其语,并经过人工验证和修正。
AIME是介于AMC 10/12和USAMO之间的中级考试。其问题设计难度远超标准高中数学,需要创造性的问题解决能力以及对算术、代数、计数、几何、数论和概率的深刻理解。
数据结构
数据集中的每个条目代表AIME 2025竞赛中的一个具体问题,包含以下字段:
- Index: 问题的唯一标识符或编号(例如1, 2, ...)。
- Problem: 数学问题的完整土耳其语文本陈述。
- Answer: 正确的整数解(AIME答案始终是000到999之间的整数)。
主要用途
- 基准测试: 在土耳其语的困难、多步骤推理任务上测试LLMs,与更简单的基准相比,记忆更不可能产生正确结果。
- 思维链 (CoT) 评估: 分析模型在非英语语言中生成有效证明步骤的性能。
来源与许可
原始问题来源于美国数学协会 (MAA) 组织的数学竞赛。本数据集根据合理使用原则,仅供研究和教育目的使用。 有关竞赛的更多信息,请访问官方MAA网站:https://maa.org/competitions/aime
联系方式
COSMOS AI研究小组,伊斯坦布尔耶尔德兹技术大学计算机工程系 https://cosmos.yildiz.edu.tr/ cosmos@yildiz.edu.tr
搜集汇总
数据集介绍

构建方式
在数学竞赛领域,AIME 2025土耳其语数据集的构建体现了跨语言知识迁移的前沿实践。该数据集源自2025年美国数学邀请赛的原始问题,通过GPT-5模型进行初步翻译,随后由人工专家进行细致的验证与修正,确保了数学表述的精确性与语言的自然流畅性。这种结合自动化与人工干预的构建方式,不仅提升了翻译效率,更保障了专业术语和逻辑结构的完整性,为土耳其语数学推理任务奠定了可靠基础。
使用方法
在应用层面,该数据集主要用于高级数学推理能力的评测与分析。研究者可将其作为基准工具,测试大语言模型在土耳其语环境下的解题性能,尤其关注模型在避免记忆依赖、展现逻辑链条方面的表现。此外,数据集支持思维链评估方法,允许深入分析模型生成证明步骤的有效性,为跨语言数学教育及人工智能推理研究提供实证支持。使用时应遵循研究及教育目的,并参考原始竞赛的官方许可规范。
背景与挑战
背景概述
在人工智能与自然语言处理领域,数学推理能力是评估大型语言模型智能水平的核心维度之一。AIME 2025土耳其语数据集由伊斯坦布尔耶尔德兹技术大学计算机工程系的COSMOS AI研究小组于近期创建,旨在将2025年美国数学邀请赛的高难度试题翻译为土耳其语,构建一个针对土耳其语数学推理的基准测试平台。该数据集聚焦于解决非英语环境下模型在复杂数学问题求解中的表现,涵盖了算术、代数、几何及数论等多个数学分支,其推出不仅丰富了多语言STEM数据资源,也为推动语言模型在特定文化语境下的高级认知能力评估提供了重要工具。
当前挑战
该数据集致力于应对数学问题求解领域的核心挑战,即如何让模型在非英语环境中进行多步骤、创造性的数学推理,而非依赖记忆或表面模式匹配。构建过程中的主要困难在于确保翻译的准确性与文化适应性,尽管借助GPT-5进行初步翻译,但数学术语的精确对应、问题陈述的逻辑一致性以及土耳其语特有的表达习惯仍需人工逐一校验与修正,这对资源与专业知识提出了较高要求。
常用场景
经典使用场景
在数学推理与自然语言处理交叉领域,AIME 2025土耳其数据集作为一项专业基准,主要用于评估大型语言模型在土耳其语环境下的高级数学问题解决能力。该数据集源自美国数学邀请赛的翻译版本,其问题设计复杂,涉及代数、几何、数论等多个数学分支,要求模型进行多步骤逻辑推理而非简单记忆,从而成为测试模型深层理解与创造性思维的重要工具。
解决学术问题
该数据集有效应对了非英语语言环境中数学推理评估的空白,解决了以往研究过度依赖英语基准的局限性。通过提供高质量土耳其语数学问题,它促进了跨语言推理能力的研究,帮助学者探索模型在多样语言背景下的泛化性能与逻辑链生成机制,为多语言人工智能的发展提供了关键数据支撑。
实际应用
在实际应用中,该数据集可集成于教育技术平台,用于开发智能辅导系统,为学生提供个性化的数学问题解答与推理指导。同时,它也能服务于语言模型本地化项目,助力企业优化土耳其语市场的AI产品,如自动化解题工具或竞赛培训系统,提升技术服务的专业性与适应性。
数据集最近研究
最新研究方向
在数学推理与自然语言处理交叉领域,AIME 2025土耳其语数据集作为非英语数学竞赛基准,正推动大型语言模型在复杂多步推理能力的前沿探索。研究者聚焦于模型在土耳其语环境下的链式思维生成与跨语言泛化性能,尤其关注其如何应对高难度算术、几何与数论问题,以突破传统记忆依赖型评估的局限。该数据集的热点应用涉及多语言STEM教育智能化与竞赛级自动解题系统开发,为低资源语言场景的认知计算研究提供了关键实验平台,促进了数学推理技术在全球范围内的公平性与可及性。
以上内容由遇见数据集搜集并总结生成



