MathArena/usamo_2025_outputs

Name: MathArena/usamo_2025_outputs
Creator: MathArena
Published: 2026-05-05 08:26:02
License: 暂无描述

Hugging Face2026-05-05 更新2025-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/usamo_2025_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含了使用MathArena GitHub仓库生成的2025年美国数学奥林匹克（USAMO）问题的模型答案。数据集记录了每个问题的完整描述、模型名称、模型配置路径、用户消息、两位评委的评分和评价细节、输入输出令牌数量以及相关成本信息。数据集适用于评估大型语言模型在数学竞赛问题上的表现。

This dataset contains model answers to the questions from USAMO 2025 generated using the MathArena GitHub repository. It includes the full problem statement, model name, model configuration path, user message, scores and grading details from two judges, input and output token counts, and associated cost information. The dataset is suitable for evaluating the performance of large language models on math competition problems.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学推理与大型语言模型交相辉映的学术前沿，USAMO 2025赛题的回答数据被系统性地汇聚于此。该数据集依托于MathArena开源工具链，从2025年美国数学奥林匹克竞赛中提取题目，并转换为LaTeX格式以保障数学表达的规范性。研究团队通过定义模型配置、设置推理参数，针对每一道赛题分别驱动多个前沿语言模型生成解答，同时记录每次尝试的完整对话与Token消耗，构建出涵盖240条样本的高质量评估语料。

特点

该数据集最鲜明的特质在于其多维度的评估架构。每条记录不仅囊括问题陈述、模型名称与配置、解答全文等基础字段，还通过双评审机制（judge_1与judge_2）对答案进行独立打分，并提供详细的评分理由与归一化正确性指标。此外，输入输出Token数、API调用成本等经济性参数的纳入，使得该数据集不仅适用于数学推理能力的评测，亦能支持对模型效率与实用性的综合剖析。

使用方法

研究人员可通过加载`data/train-*`文件直接获取全部样本，将'problem'字段作为输入，'answer'字段结合'correct'及双评审的评分结果作为监督信号，用于训练或评估语言模型的数学推理能力。数据集还支持细粒度分析，例如借助'grading_details_judge_*'字段剖析模型的解题逻辑，或利用'input_tokens'与'cost'字段开展计算资源消耗的对比研究。该数据采用CC BY-NC-SA 4.0许可协议，使用时请遵循相关引用规范。

背景与挑战

背景概述

近年来，大型语言模型在数学推理任务上展现出令人瞩目的能力，然而其在极高难度竞赛数学领域的表现仍缺乏系统评估。为此，2025年，由苏黎世联邦理工学院的安全与可靠性研究所（ETH-SRI）团队开发了USAMO 2025 Outputs数据集，该数据集依托于MathArena评估平台，收录了多种先进模型对2025年美国数学奥林匹克（USAMO）试题的解答与评判结果。核心研究问题聚焦于量化当前最先进模型在顶尖数学竞赛中的推理能力、得分分布与错误模式。该数据集不仅为数学推理评测提供了高难度、细粒度的标准化基准，还通过双裁判独立评分机制增强了评估的可信度，对推动大语言模型在形式化推理与复杂问题求解方向的发展具有重要意义。

当前挑战

该数据集所解决的领域挑战在于，现有数学推理基准通常涵盖高中水平问题，难以区分顶尖模型的细微能力差异，而USAMO试题的极高难度恰好填补了这一层次化评估的空白。在构建过程中，主要挑战包括：其一，将原始竞赛试题精确转换为LaTeX格式并保证无歧义，需耗费大量人力与领域专业知识进行校对；其二，模型解答的自动评判依赖两个独立裁判系统，如何设计裁判间的评分一致性校准规则、处理裁判内部错误（如解析失败或评分细节冲突）以及融合来自不同裁判的分数以形成可靠评估，均是数据处理与质量保障的核心难点。

常用场景

经典使用场景

在数学推理与人工智能的交汇领域，USAMO 2025输出数据集为评估大型语言模型在高难度数学竞赛中的表现提供了标准化基准。该数据集精选美国数学奥林匹克2025年度的六道顶尖题目，依次收集了多种先进语言模型的完整作答过程与多元评判结果，因而成为探究模型在严苛数学逻辑链条下推理能力、符号操作精度及多步求解策略的经典测试平台。研究者和开发人员常借助这一数据集，系统对比不同模型架构、提示策略及微调方法在解决艰深数论、组合、代数与几何问题时的成效差异。

实际应用

在工业与教育领域的实际场景中，该数据集展现出显著的转化价值。基于USAMO 2025输出所反映的模型表现，教育科技公司可优化自动辅导系统的数学解答质量，确保学习助手能够提供严谨的逐步推理而非浅显答案。同时，顶尖人工智能实验室将其纳入模型能力评估矩阵，作为发布前对高阶推理性能进行压力测试的关键样本。此外，其在自动化数学竞赛阅卷辅助系统中的潜力逐步显现，借助多人评判机制的训练范式，有助于构建兼具公平性与洞察力的智能评分引擎，提升大规模数学能力评估的自动化水平。

衍生相关工作

围绕该数据集，一系列极具影响力的衍生工作如雨后春笋般涌现。受其启发，研究者相继推出了针对语言模型数学推理的细粒度归因分析工具，通过深度剖析答题过程中的逻辑错误分布，提出了层次化纠错训练框架。一批结合强化学习与符号验证的混合推理系统应运而生，利用数据集中的多元评判信号作为奖励来源，显著提升了模型在全新竞赛题目上的泛化能力。此外，基于该数据集的评测结果也催生了关于数学推理难度图谱的构建工作，推动了对不同模型在数论、组合、几何等子领域中差异化优劣的深入刻画，进一步夯实了该领域持续发展的数据基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集