MathArena/usamo_2026_outputs
收藏Hugging Face2026-05-05 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/MathArena/usamo_2026_outputs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用MathArena GitHub仓库生成的2026年美国数学奥林匹克竞赛(USAMO)问题的模型回答。数据集提供了多个字段,包括问题索引、问题陈述、模型名称、模型配置、回答索引、完整对话、用户提示、模型回答、输入输出令牌数量、成本估计、评分细节等。原始问题来源于USAMO 2026竞赛,经过提取、转换为LaTeX格式并验证。
This dataset contains model answers to the questions from USAMO 2026 generated using the MathArena GitHub repository. The dataset includes fields such as problem index, problem statement, model name, model configuration, answer index, full conversation, user prompt, model response, input/output tokens, cost estimation, and grading details. The original questions were sourced from the USAMO 2026 competition, extracted, converted to LaTeX and verified.
提供机构:
MathArena
搜集汇总
数据集介绍

构建方式
在数学推理能力日益成为大型语言模型评估核心的当下,USAMO 2026 Outputs数据集应运而生。该数据集基于美国数学奥林匹克(USAMO)2026年竞赛的试题构建,由MathArena平台通过自动化流水线生成。原始试题经过精细的LaTeX格式提取与校验后,被输入至多种主流大语言模型,并记录下每个模型针对每道题目的多次推理尝试。每次尝试均保存了完整的对话记录、模型配置信息以及逐token的输入输出消耗,最终形成了一个结构化的多维度评测数据集。
使用方法
研究者可通过Hugging Face的datasets库便捷地加载该数据集,其存储格式为Parquet,支持高效的分布式读取。利用core字段如problem、answer和correct,可快速复现经典的自动化评测流程;而grading_details_judge_1与all_messages字段则允许进行更细粒度的错误模式分析或对话结构研究。数据集默认划分为训练集(192条记录),建议用户在使用时结合MathArena仓库的评测工具,以标准化的方式对新一代数学大模型进行横向对比,或深入探究特定模型在极高难度数学问题上的行为特征。
背景与挑战
背景概述
在人工智能与数学推理交汇的前沿,大语言模型的数学能力评估已成为衡量其认知水平的关键指标。基于此背景,由苏黎世联邦理工学院安全与隐私实验室的研究团队于2026年构建的USAMO 2026 Outputs数据集应运而生,主要研究人员包括Jasper Dekoninck、Nikola Jovanović等。该数据集聚焦于美国数学奥林匹克竞赛的顶级难题,旨在通过模型对USAMO 2026试题的回答,深入剖析前沿语言模型在高阶符号推理、多步证明构造及复杂问题分解上的表现。作为MathArena评估平台的重要组成部分,该数据集为量化模型在非标准、高难度数学任务上的实际能力提供了标准化基准,对推动人工智能在数学竞赛领域的评估范式产生了重要影响。
当前挑战
该数据集所面临的挑战主要涵盖两个层面。在领域问题层面,USAMO题目本身涉及深度数学推理与创造性证明,不同于常规编程或问答任务,模型需具备识别隐含条件、构建严谨推导链条及处理数学符号语义歧义的能力,这对当前语言模型的形式化推理与逻辑一致性提出了严苛考验。在数据集构建过程中,团队面临将非结构化的竞赛试题准确提取并转换为LaTeX格式的困难,同时需设计多维度评判机制以应对模型回答的开放性与评分标准的主观性,此外还需对同一问题多次采样以消除偶然性,确保评估结果的稳健性与可复现性。
常用场景
经典使用场景
在人工智能与数学推理的交汇领域,usamo_2026_outputs数据集被广泛用于评测大型语言模型在奥林匹克级别数学问题上的解题能力。研究者借助该数据集,可以系统性地分析模型面对高难度竞赛试题时的推理路径、答案生成质量以及多轮对话中的逻辑连贯性。数据集不仅包含完整的题目与模型回答,还提供了详细的评分依据和推理过程,为深入剖析模型在复杂数学推理任务中的表现提供了标准化的测试基准。
解决学术问题
该数据集有效解决了学术界在评估语言模型数学推理能力时面临的数据稀缺与标准化不足的问题。此前,缺乏高质量、高难度的竞赛级数学测试集,使得模型在逻辑深度和创造性解题方面的能力难以被准确度量。usamo_2026_outputs的出现,使得研究人员得以量化模型在形式化证明、多步推导和严谨论证等典型学术问题中的表现,推动了数学推理评估从简单算术向高度复杂智力挑战的跃升。
实际应用
在实际应用中,usamo_2026_outputs数据集为教育科技领域提供了关键支撑。基于该数据集训练的评估系统,可用于自动批改数学竞赛风格的开放性答案,辅助教师或竞赛教练快速定位学生在解题思路中的薄弱环节。此外,它还能驱动智能辅导系统生成具有挑战性的训练题目,并针对学生的回答提供精细化反馈,从而在个性化学习与高阶思维能力培养中发挥重要价值。
数据集最近研究
最新研究方向
该数据集聚焦于前沿的大语言模型在奥林匹克级数学竞赛中的推理与解题能力评估。结合当前AI在数学推理领域的热点事件,如DeepMind的AlphaGeometry和OpenAI的o1系列模型在复杂数学问题上的突破,usamo_2026_outputs为衡量LLMs在高端数学竞技场中的表现提供了标准化基准。其核心价值在于通过记录模型对USAMO 2026试题的多维度输出(包括推理过程、评分细节与成本消耗),推动从简单问答评测向深层次数学理解与严谨推理的评估范式转变。这一方向不仅揭示了当前LLMs在形式化数学论证上的极限,也为未来构建更具数学直觉的混合推理系统(如结合符号计算与语言模型)指明了关键挑战与优化路径。
以上内容由遇见数据集搜集并总结生成



