five

ytu-ce-cosmos/aime25-tr

收藏
Hugging Face2026-05-06 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/ytu-ce-cosmos/aime25-tr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2025年美国数学邀请赛(AIME)问题的土耳其语翻译,旨在作为评估大型语言模型(LLMs)在土耳其语中高级数学推理能力的基准。问题使用GPT-5翻译,并经过人工验证和校正。AIME是介于AMC 10/12和USAMO之间的中级考试,问题设计比标准高中数学更难,需要创造性解决问题和对算术、代数、计数、几何、数论和概率的深入理解。数据集中的每个条目代表AIME 2025竞赛中的一个具体问题,包括索引(唯一标识符)、问题(土耳其语的数学问题陈述)和答案(正确的整数解)。该数据集特别适用于:1. 基准测试:在土耳其语中测试LLMs在困难、多步推理任务上的表现,其中记忆不太可能产生正确结果;2. 思维链(CoT)评估:分析模型在非英语语言中生成有效证明步骤的性能。原始问题来源于美国数学协会(MAA)组织的数学竞赛,数据集在合理使用原则下提供用于研究和教育目的。

This dataset contains the Turkish translations of problems from the 2025 American Invitational Mathematics Examination (AIME). It is intended to serve as a benchmark for evaluating the advanced mathematical reasoning capabilities of Large Language Models (LLMs) in the Turkish language. The questions were translated into Turkish using GPT-5 and subsequently manually verified and corrected. The AIME is an intermediate examination between the AMC 10/12 and the USAMO. The problems are designed to be much more difficult than standard high school mathematics, requiring creative problem-solving and deep understanding of arithmetic, algebra, counting, geometry, number theory, and probability. Each entry in the dataset represents a specific problem from the AIME 2025 competition, including the Index (unique identifier), Problem (the full text statement of the mathematical problem in Turkish), and Answer (the correct integer solution). This dataset is particularly useful for: 1. Benchmarking: Testing LLMs on hard, multi-step reasoning tasks in Turkish where memorization is less likely to yield correct results compared to simpler benchmarks; 2. Chain-of-Thought (CoT) Evaluation: Analyzing model performance in generating valid proof steps in a non-English language. The original problems are sourced from the mathematical competitions organized by the Mathematical Association of America (MAA). This dataset is provided for research and educational purposes under fair use principles.
提供机构:
ytu-ce-cosmos
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由AIME 2025竞赛原题经过土耳其语翻译构建而成。翻译工作借助GPT-5自动完成,随后由人工进行逐题验证与校正,以确保语言准确性与完整性。此外,团队还实施了额外的质量检查,以排查格式错误、LaTeX表达不一及翻译歧义等问题。数据集收录了AIME考试的所有题目,每道题包含唯一索引、完整题目描述及其正确答案,答案均为0至999之间的整数。
使用方法
数据集主要用于评测土耳其语环境下大语言模型的高级数学推理表现。研究者可将其作为基准测试,评估模型在多步骤推理任务上的准确率,由于题目答案均为唯一整数,便于自动评分。同时,该数据集特别适用于链式思维推理评估,通过分析模型生成的解题步骤,检验其在非英语语言中构建合理数学证明的能力。数据集基于合理使用原则提供,仅限研究与教育用途。
背景与挑战
背景概述
在大型语言模型(LLM)数学推理能力评估的探索中,高难度竞赛数学题因其对多步推理与创造性思维的严苛要求,成为衡量模型认知极限的理想基准。由Yıldız技术大学COSMOS AI研究团队于2025年创建的AIME 2025土耳其语数据集(aime25-tr),聚焦于将美国数学邀请赛(AIME)题目翻译为土耳其语,旨在填补非英语环境下高阶数学推理基准的空白。该数据集源自美国数学协会(MAA)主办的AIME考试——介于AMC与USAMO之间的中级竞赛,涵盖算术、代数、几何、数论及概率等领域的难题,对LLM的跨语言推理能力提出了严峻挑战。通过引入土耳其语变体的竞赛数学问题,该数据集为研究多语言环境中模型的泛化性能与记忆依赖风险提供了独特视角,推动了数学推理基准的地域化与语言多样化发展。
当前挑战
该数据集核心挑战在于多维度适应与构建的复杂性。首先,从领域问题看,AIME问题本质要求模型具备超越简单模式匹配的深度数学推理能力,尤其在土耳其语环境下,LLM需同时应对自然语言理解歧义与数学符号的语法差异,例如前缀复杂的土耳其语数词与LaTeX表达式的语义对齐问题。其次,构建过程中,原始英文题目经GPT-5翻译后需人工逐题验证,面临细粒度错误修正的挑战:包括遗留LaTeX格式不匹配、多解问题中答案整数的编码校验(0-999范围限定),以及部分费马小定理等数论术语在土耳其语中的无标准译法问题。此外,规模限制(少于1000题)加剧了样本稀缺性,难以通过数据增强避免过拟合,而人工校验的高成本则对持续更新与多语言扩展构成瓶颈,迫使研究者在精确性与覆盖率之间寻求平衡。
常用场景
经典使用场景
在人工智能与自然语言处理领域,AIME 2025土耳其语数据集被广泛用于评估大语言模型在复杂数学推理任务上的表现。作为一项高难度的竞赛数学基准,它要求模型不仅掌握基础数学知识,还需具备多步逻辑推导与创造性解题能力。该数据集的核心应用场景包括零样本或少样本条件下的数学问题解答、链式思维推理的生成与验证,以及模型在多语种环境下的泛化能力测试。研究人员常通过此数据集对比不同模型在土耳其语数学题上的准确率与推理连贯性,从而洞察模型在高阶认知任务中的真实水平。
解决学术问题
该数据集有效解决了学术界长期面临的挑战:如何在大语言模型中客观衡量非英语环境下的高阶数学推理能力。传统基准多集中于英语或简单数学问题,难以揭示模型在复杂推理与语言迁移上的瓶颈。通过引入AIME这样高区分度的竞赛题目,并赋予其土耳其语语境,研究者得以深入分析模型在跨语言知识检索、逻辑链构建以及避免记忆化捷径等方面的薄弱环节。这一工作显著推动了多语言AI推理评估的标准化,为开发更稳健、更通用的推理模型提供了关键测试平台。
实际应用
在实际应用中,AIME 2025土耳其语数据集助力于构建和优化面向土耳其语用户的教育科技产品。它可以作为虚拟数学辅导系统的核心测评工具,自动诊断学生在代数、几何、数论等领域的推理缺陷,并生成针对性的练习建议。此外,该数据集也被用于训练能够用土耳其语解释复杂解题步骤的辅助教学智能体,提升非英语国家学生在STEM教育中的可及性。在竞赛培训场景中,基于该数据集的模型能够自动生成具有AIME难度级别的模拟题目,从而降低优质教育资源的获取门槛。
数据集最近研究
最新研究方向
当前,多语言数学推理能力评估成为大语言模型研究的前沿热点,尤其聚焦于非英语环境下的复杂问题求解。aime25-tr数据集基于2025年美国邀请数学竞赛(AIME)的土耳其语翻译版本,专为评测模型在高级数学推理中的多步骤逻辑链(Chain-of-Thought)表现而设计。其核心价值在于,通过将高难度竞赛题目迁移至低资源语言——土耳其语,揭示了模型在远离训练数据分布时的泛化脆弱性,与近期关于语言锚定效应(即模型依赖特定语言线索解题)的研究高度关联。该数据集的出现推动了跨语言数学基准的构建,为理解模型在非英语语境下的推理偏差与符号抽象能力提供了关键测试床,对探索多语言人工智能的公平性与鲁棒性具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作