aime_2025

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/MathArena/aime_2025

下载链接

链接失效反馈

官方服务：

资源简介：

AIME 2025数据集包含了用于MathArena排行榜的AIME 2025比赛的题目。数据集包含题目索引、完整的问题陈述、问题的正确答案以及问题类型。问题类型可以是组合数学、数论、代数或几何中的任意一种或多种。

创建时间：

2025-05-11

原始信息汇总

数据集概述：AIME 2025

基本信息

数据集名称：AIME 2025
数据集大小：16,990字节
示例数量：30
下载大小：14,313字节
语言：英语
许可证：CC BY-NC-SA 4.0
类别大小：n<1K

数据字段

problem_idx (int64)：问题在竞赛中的索引
problem (string)：完整的问题描述
answer (int64)：问题的真实答案
problem_type (sequence[string])：问题类型，可能包括"Combinatorics"、"Number Theory"、"Algebra"、"Geometry"。一个问题可能有多个类型。

数据来源

原始数据：AIME 2025竞赛中的问题
数据处理：问题被提取、转换为LaTeX格式并经过验证

引用信息

bibtex @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, }

相关链接

主页：https://matharena.ai/
代码库：https://github.com/eth-sri/matharena

搜集汇总

数据集介绍

构建方式

该数据集源自2025年美国数学邀请赛(AIME)的竞赛题目，经过系统化整理与验证构建而成。原始题目经过专业提取后转换为LaTeX格式，确保数学符号与公式的精确呈现。每个问题均标注了唯一索引编号，并进行了多维度分类，涵盖组合数学、数论、代数及几何四大数学分支，部分题目可能同时属于多个分类。数据构建过程注重保持竞赛题目的完整性与准确性，为数学能力评估提供了标准化素材。

特点

作为专业数学竞赛题库，该数据集最显著的特点是题目类型的多样性及标注的精细程度。每道题目不仅包含完整的问题描述和标准答案，还通过多标签分类体系标注其数学分支属性，这种多维标注方式为研究数学问题解决能力提供了丰富特征。数据集规模虽小但质量精良，所有题目均来自权威数学竞赛，具有较高的专业性和挑战性，特别适合用于评估大型语言模型在复杂数学推理任务上的表现。

使用方法

该数据集主要服务于数学能力评估与模型测试领域，用户可通过HuggingFace平台直接下载获取。使用时应遵循CC BY-NC-SA 4.0许可协议，重点关注问题陈述与对应答案的匹配关系。研究人员可利用problem_type字段进行特定数学分支的分析，或通过problem_idx实现题目追溯。建议将本数据集与其它数学评估基准结合使用，以全面衡量模型在不同数学领域的推理能力。对于模型训练应用，需注意数据规模限制并考虑适当的增强策略。

背景与挑战

背景概述

AIME 2025数据集由苏黎世联邦理工学院SRI实验室于2025年构建，旨在为数学竞赛领域提供高质量的基准测试资源。该数据集源自美国数学邀请赛（AIME 2025）的竞赛题目，涵盖组合数学、数论、代数和几何等核心数学分支，专门用于评估大型语言模型在未经训练的数学竞赛问题上的表现。作为MathArena项目的重要组成部分，该数据集通过严格的题目提取和LaTeX格式转换流程，为数学人工智能研究提供了可靠的评估标准。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，数学竞赛题目通常包含复杂的逻辑推理和创造性解题要求，这对模型的抽象思维和数学推理能力提出了极高要求；在构建过程中，竞赛题目的多类型标注和精确的LaTeX格式转换需要专业数学知识，同时保持原始题目的完整性和准确性也是一项技术难点。此外，如何在不泄露竞赛敏感信息的前提下构建可公开的研究数据集，需要平衡学术需求与竞赛保密要求。

常用场景

经典使用场景

在数学竞赛和人工智能交叉领域，AIME 2025数据集为研究人员提供了一个标准化的评估平台。该数据集收录了美国数学邀请赛（AIME）的竞赛题目，涵盖组合数学、数论、代数和几何等多个数学分支。研究者通常利用这些题目来测试和比较不同大型语言模型（LLMs）在解决复杂数学问题上的能力，特别是在无污染环境下的表现评估。

实际应用

该数据集的实际价值体现在智能教育系统的开发中。教育科技公司可以基于这些竞赛题目构建自适应学习系统，为学生提供个性化的数学训练。同时，在线教育平台能够利用这些题目开发自动批改和解题指导功能。在学术竞赛培训领域，该数据集可作为生成模拟试题的重要来源，帮助参赛者进行针对性训练。

衍生相关工作

围绕AIME 2025数据集已产生多项重要研究，其中最突出的是ETH Zurich团队开发的MathArena评估框架。该框架利用这些竞赛题目建立了首个专注于数学竞赛的LLM评测标准。后续工作包括基于此数据集开发的数学问题生成模型，以及结合符号计算与神经网络的混合求解系统，这些研究显著推动了自动数学推理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集