aime_2025
收藏Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/MathArena/aime_2025
下载链接
链接失效反馈官方服务:
资源简介:
AIME 2025数据集包含了用于MathArena排行榜的AIME 2025比赛的题目。数据集包含题目索引、完整的问题陈述、问题的正确答案以及问题类型。问题类型可以是组合数学、数论、代数或几何中的任意一种或多种。
创建时间:
2025-05-11
原始信息汇总
数据集概述:AIME 2025
基本信息
- 数据集名称:AIME 2025
- 数据集大小:16,990字节
- 示例数量:30
- 下载大小:14,313字节
- 语言:英语
- 许可证:CC BY-NC-SA 4.0
- 类别大小:n<1K
数据字段
problem_idx(int64):问题在竞赛中的索引problem(string):完整的问题描述answer(int64):问题的真实答案problem_type(sequence[string]):问题类型,可能包括"Combinatorics"、"Number Theory"、"Algebra"、"Geometry"。一个问题可能有多个类型。
数据来源
- 原始数据:AIME 2025竞赛中的问题
- 数据处理:问题被提取、转换为LaTeX格式并经过验证
引用信息
bibtex @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, }
相关链接
- 主页:https://matharena.ai/
- 代码库:https://github.com/eth-sri/matharena
搜集汇总
数据集介绍

构建方式
该数据集源自2025年美国数学邀请赛(AIME)的竞赛题目,经过系统化整理与验证构建而成。原始题目经过专业提取后转换为LaTeX格式,确保数学符号与公式的精确呈现。每个问题均标注了唯一索引编号,并进行了多维度分类,涵盖组合数学、数论、代数及几何四大数学分支,部分题目可能同时属于多个分类。数据构建过程注重保持竞赛题目的完整性与准确性,为数学能力评估提供了标准化素材。
特点
作为专业数学竞赛题库,该数据集最显著的特点是题目类型的多样性及标注的精细程度。每道题目不仅包含完整的问题描述和标准答案,还通过多标签分类体系标注其数学分支属性,这种多维标注方式为研究数学问题解决能力提供了丰富特征。数据集规模虽小但质量精良,所有题目均来自权威数学竞赛,具有较高的专业性和挑战性,特别适合用于评估大型语言模型在复杂数学推理任务上的表现。
使用方法
该数据集主要服务于数学能力评估与模型测试领域,用户可通过HuggingFace平台直接下载获取。使用时应遵循CC BY-NC-SA 4.0许可协议,重点关注问题陈述与对应答案的匹配关系。研究人员可利用problem_type字段进行特定数学分支的分析,或通过problem_idx实现题目追溯。建议将本数据集与其它数学评估基准结合使用,以全面衡量模型在不同数学领域的推理能力。对于模型训练应用,需注意数据规模限制并考虑适当的增强策略。
背景与挑战
背景概述
AIME 2025数据集由苏黎世联邦理工学院SRI实验室于2025年构建,旨在为数学竞赛领域提供高质量的基准测试资源。该数据集源自美国数学邀请赛(AIME 2025)的竞赛题目,涵盖组合数学、数论、代数和几何等核心数学分支,专门用于评估大型语言模型在未经训练的数学竞赛问题上的表现。作为MathArena项目的重要组成部分,该数据集通过严格的题目提取和LaTeX格式转换流程,为数学人工智能研究提供了可靠的评估标准。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,数学竞赛题目通常包含复杂的逻辑推理和创造性解题要求,这对模型的抽象思维和数学推理能力提出了极高要求;在构建过程中,竞赛题目的多类型标注和精确的LaTeX格式转换需要专业数学知识,同时保持原始题目的完整性和准确性也是一项技术难点。此外,如何在不泄露竞赛敏感信息的前提下构建可公开的研究数据集,需要平衡学术需求与竞赛保密要求。
常用场景
经典使用场景
在数学竞赛和人工智能交叉领域,AIME 2025数据集为研究人员提供了一个标准化的评估平台。该数据集收录了美国数学邀请赛(AIME)的竞赛题目,涵盖组合数学、数论、代数和几何等多个数学分支。研究者通常利用这些题目来测试和比较不同大型语言模型(LLMs)在解决复杂数学问题上的能力,特别是在无污染环境下的表现评估。
实际应用
该数据集的实际价值体现在智能教育系统的开发中。教育科技公司可以基于这些竞赛题目构建自适应学习系统,为学生提供个性化的数学训练。同时,在线教育平台能够利用这些题目开发自动批改和解题指导功能。在学术竞赛培训领域,该数据集可作为生成模拟试题的重要来源,帮助参赛者进行针对性训练。
衍生相关工作
围绕AIME 2025数据集已产生多项重要研究,其中最突出的是ETH Zurich团队开发的MathArena评估框架。该框架利用这些竞赛题目建立了首个专注于数学竞赛的LLM评测标准。后续工作包括基于此数据集开发的数学问题生成模型,以及结合符号计算与神经网络的混合求解系统,这些研究显著推动了自动数学推理领域的发展。
以上内容由遇见数据集搜集并总结生成



