aime_24

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/OpenEvals/aime_24

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了2024年AIME I和AIME II考试中的30个问题，每个问题都包含问题本身、解决方案、答案和问题链接等信息。

创建时间：

2025-11-24

原始信息汇总

AIME 2024 数据集概述

数据集基本信息

数据集名称：AIME 2024
存储库地址：https://huggingface.co/datasets/OpenEvals/aime_24
来源：原始数据来源于 AI-MO/aimo-validation-aime，该数据集包含2022-2024年AIME的90道题目。
内容描述：本数据集包含来自2024年AIME I和AIME II测试的30道题目。

数据集结构与特征

数据量：共30个样本。
数据大小：下载大小81,670字节，数据集大小139,586字节。
数据划分：仅包含一个“train”划分。
特征字段：
- id：整型标识符。
- problem：字符串类型，题目描述。
- solution：字符串类型，解题过程。
- answer：字符串类型，最终答案。
- url：字符串类型，相关链接。
- year：字符串类型，年份信息。

搜集汇总

数据集介绍

构建方式

在数学竞赛研究领域，AIME 2024数据集精心选取了2024年美国数学邀请赛（AIME）I和II两场测试中的30道题目。这些题目源自公开的竞赛资源，经过系统整理，确保了数据的权威性和完整性。构建过程中，每道题目均被结构化地标注了问题描述、详细解答、最终答案以及对应的年份和来源链接，形成了一个标准化的数学问题求解集合。

特点

该数据集以其高度的专业性和针对性而著称，专注于2024年AIME竞赛的题目，涵盖了代数、几何、数论等多元数学分支。每个样本均包含完整的解题思路和标准答案，为模型训练提供了丰富的逻辑推理素材。数据规模虽小，但质量精良，适合用于评估和提升数学问题求解模型的精确性与泛化能力。

使用方法

在人工智能与教育技术应用中，该数据集可直接用于训练或测试数学问题求解模型。用户可通过加载数据集，访问问题、解答和答案字段，进行端到端的模型训练或性能评估。结合其他竞赛数据集，它还能支持跨年份的对比分析，助力研究者深入探索数学推理模型的演进与优化路径。

背景与挑战

背景概述

在数学竞赛领域，美国数学邀请赛（AIME）作为连接美国数学竞赛（AMC）与国际数学奥林匹克（IMO）的关键桥梁，历来是评估中学生高阶数学思维与问题解决能力的重要标准。aime_24数据集由AI-MO研究团队于2024年构建，专注于收录当年AIME I与AIME II竞赛中的30道典型题目，旨在为人工智能在数学推理领域的模型训练与评估提供精准的基准资源。该数据集的创建不仅反映了研究者对自动化解决复杂数学问题技术的迫切需求，也为推动教育智能化与自适应学习系统的发展奠定了数据基础。

当前挑战

aime_24数据集所针对的核心挑战在于如何使人工智能系统掌握人类级别的数学推理能力，特别是应对竞赛题目中常见的非结构化问题表述、多步骤逻辑推导以及抽象概念的综合运用。在构建过程中，研究者需克服题目表述的歧义性、解答过程的标准化呈现以及数据规模有限等难题，确保数据集既能准确反映竞赛的学术严谨性，又能适配机器学习模型的训练需求。这些挑战共同指向了当前AI在符号推理与领域知识融合方面的前沿探索。

常用场景

经典使用场景

在数学竞赛与自动推理领域，AIME 2024数据集常被用于评估大型语言模型在解决复杂数学问题方面的能力。该数据集收录了美国数学邀请赛（AIME）的30道题目，涵盖代数、几何、数论与组合数学等多个分支，为研究者提供了一个标准化的测试平台，用以检验模型在理解问题、生成推理步骤及得出精确答案方面的表现。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，例如基于Transformer架构的数学推理模型优化、针对多步问题的链式思维提示技术，以及结合形式化验证的解答可靠性评估框架。这些工作不仅提升了模型在AIME任务上的性能，还为MATH、AMC等更广泛数学数据集的构建与应用奠定了方法论基础。

数据集最近研究