MathArena/usamo_2024
收藏Hugging Face2026-05-05 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MathArena/usamo_2024
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含了2024年美国数学奥林匹克(USAMO)比赛的题目,这些题目被用于MathArena排行榜。数据集包含问题的索引、完整的问题描述、问题可获得的点数、一个能获得满分的示例解决方案、一个评分示例,以及一个评分方案的列表,该列表详细说明了每个部分可以获得点数的证明。此数据集仅包含2024年USAMO比赛的前三个问题。
This dataset contains the questions from the 2024 USAMO competition used for the MathArena Leaderboard. It includes the problem index, full problem statement, number of points that can be earned for the question, a sample solution that would obtain a perfect score, an example of how a graded solution can look like, and a list of grading schemes detailing the parts of the proof for which points can be earned. This dataset only contains the first three problems of the 2024 USAMO competition.
提供机构:
MathArena
搜集汇总
数据集介绍

构建方式
USAMO 2024数据集源自美国数学奥林匹克竞赛(USAMO)2024年的正式试题,专为MathArena排行榜设计。原始竞赛题目经提取后,被转换为LaTeX格式并进行严格校验,以确保数学表达的准确性和规范性。该数据集仅收录了2024年USAMO的前三道题目,每道题均保留了原始竞赛中的评分标准、满分分值以及详细的评分方案,其中评分方案以列表形式呈现,包含描述、分值和标题等结构化信息。此外,数据集还附带了样例解答和样例评分注释,为评估和训练提供参考。数据采用CC BY-NC-SA 4.0许可发布,共包含3个训练样本,总大小约为9.5KB。
特点
该数据集的核心特点在于其高度的专业性与结构化设计。每道题目均以LaTeX源码形式存储,确保了数学符号与公式的精确表达;同时,分级评分方案被细化为多个描述性条目,使得非最终答案型的证明题评估具备可操作性与一致性。数据集还提供了样例解答与评分注释,为模型输出的自动或人工评判提供了标杆。值得注意的是,该数据集规模极小(仅3个样本),聚焦于高难度竞赛题目的精细化评估,适用于对大型语言模型进行深度数学推理能力的测试与对比,而非大规模训练。此外,所有数据遵循CC BY-NC-SA许可,兼顾了开放共享与版权保护。
使用方法
使用该数据集时,可直接通过HuggingFace Datasets库加载默认配置下的训练集。加载后,每条记录包含题目索引、LaTeX格式的题目陈述、满分分值、评分方案列表、样例解答及样例评分注释等字段。研究人员可将题目陈述作为输入,要求模型生成解答或推理过程;随后,可依据提供的分级评分方案对模型输出进行客观评分,或与样例解答进行对比分析。由于数据集规模极小,适合用作评测基准中的子集,而非独立训练语料。用户需注意遵守CC BY-NC-SA 4.0许可条款,并在引用时注明MathArena相关文献。
背景与挑战
背景概述
USAMO 2024数据集由苏黎世联邦理工学院(ETH Zurich)安全可靠智能系统实验室的研究团队于2026年创建,作为MathArena评估平台的核心组成部分。该数据集源自美国数学奥林匹克(USAMO)2024年竞赛的前三道证明题,旨在为大型语言模型(LLMs)的数学推理能力提供一个高难度、结构化的评估基准。相较于传统的数学问答数据集,USAMO 2024聚焦于需要严谨逻辑链与创造性思维的竞赛级问题,涵盖问题陈述、评分细则、示例解答及评分注释等丰富字段,开创了可复现的自动化评判范式。其发布显著推动了自然语言处理领域对高级数学推理定量评估的研究,尤其在证明题自动评分与模型泛化能力分析方面具有里程碑意义。
当前挑战
该数据集所解决的领域核心挑战在于,现有数学推理基准多局限于基础计算或简单应用题,难以评估LLMs处理需要多步逻辑推导与抽象构造的竞赛级问题能力。USAMO 2024的构建亦面临特殊困难:原始竞赛题需手动转换为LaTeX格式并验证语义完整性,评分细则(grading_scheme)的设计需兼顾数学严谨性与自动解析可行性,以获得可分步评估的评分标准。此外,由于USAMO试题的高难度与低数据量(仅3道问题),如何在小样本场景下设计可靠且可泛化的评估协议,避免过拟合风险,成为制约模型真实能力衡量的关键瓶颈。
常用场景
经典使用场景
USAMO 2024数据集源自美国数学奥林匹克竞赛的正式试题,涵盖了三道高难度证明题,每道题均配有详细的评分标准、示例解答及评分注释。该数据集最经典的使用场景是作为大语言模型在形式化数学推理与逻辑证明能力评估中的基准测试集。研究者可利用这些包含LaTeX格式的题目和人工设计的评分方案,系统性地检验模型在复杂数学问题上的推导准确性、步骤完整性以及错误定位能力,从而推动数学推理领域评估标准的科学化与规范化。
实际应用
在实际应用中,USAMO 2024数据集被整合进MathArena排行榜平台,成为评测大语言模型数学能力的标准化工具。教育科技公司可借此筛选出具备优秀逻辑推导能力的AI助手,用于辅助奥数训练或自动生成解题思路讲解;竞赛培训机构也能通过分析模型对不同评分标准的响应,优化教学策略。此外,该数据集还为自适应学习系统提供了高难度调试样本,帮助开发者在真实竞赛级问题中验证模型的可靠性边界。
衍生相关工作
围绕USAMO 2024数据集,学界已涌现出一系列经典衍生工作。其中最核心的是MathArena评估框架的构建,该框架首次将竞赛级证明题的自动化评分机制引入模型评测,提出了基于分级评分标准(rubric)的细粒度性能度量方法。此外,有研究利用该数据集微调语言模型以增强其数学证明能力,也有工作探索了如何通过对抗性提示生成与自动错误检测来提升模型在奥赛题目上的鲁棒性。这些工作共同驱动了数学推理基准测试从结果导向走向过程导向的范式转变。
以上内容由遇见数据集搜集并总结生成



