MathArena/usamo_2025

Name: MathArena/usamo_2025
Creator: MathArena
Published: 2026-05-05 08:25:59
License: 暂无描述

Hugging Face2026-05-05 更新2025-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/usamo_2025

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了2025年美国数学奥林匹克(USAMO)的问题，用于MathArena排行榜。每个问题都有问题索引、完整的问题描述、可获得的分数、样例解答以及评分标准。评分标准详细说明了每个部分的内容和可获得的分数。

This dataset contains questions from the USAMO 2025 competition used for the MathArena Leaderboard. Each question includes an index, a full problem statement, the number of points that can be earned, a sample solution, and a grading scheme that details the content and points for each part.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，USAMO 2025数据集的构建体现了严谨的学术流程。该数据集源自美国数学奥林匹克2025年竞赛的原始试题，经过专业提取与转换，将问题陈述转化为规范的LaTeX格式，确保了数学符号与排版的精确性。每一道题目均经过验证，以保持与官方竞赛内容的一致性。数据集结构清晰，不仅包含问题本身，还整合了评分方案与示例解答，为后续的自动化评估奠定了可靠基础。

使用方法

对于研究者而言，该数据集主要用于评估数学问题求解系统的性能。使用者可以加载数据集，利用其中的`problem`字段作为模型输入，引导模型生成解题步骤或完整证明。随后，可将模型的输出与`sample_solution`进行对比，或更关键地，依据`grading_scheme`中定义的细粒度评分规则对输出进行自动化或人工评估。`sample_grading`字段则提供了一个具体的评分过程范例，有助于理解评分标准的实际应用。通过这一流程，能够系统性地衡量模型在高端数学竞赛题目上的表现。

背景与挑战

背景概述

在人工智能与数学推理交叉领域，评估大型语言模型（LLM）的数学问题解决能力已成为前沿研究热点。MathArena/usamo_2025数据集由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建，其核心研究问题聚焦于如何利用未受污染的、高难度数学竞赛题目来客观评估LLM的深层推理与证明能力。该数据集源自2025年美国数学奥林匹克竞赛（USAMO）的官方试题，通过精确提取与LaTeX格式转换，为研究者提供了一个标准化、结构化的基准测试平台，对推动数学自动推理与智能教育系统的发展具有显著影响力。

当前挑战

该数据集旨在解决数学自动推理领域中的核心挑战，即如何让LLM在不受训练数据污染的情况下，处理需要多步逻辑推导与严格证明的复杂数学问题。构建过程中的主要挑战包括：确保竞赛题目的原始性与完整性，避免在数据预处理中引入偏差；设计精细化的评分方案，以结构化方式分解证明步骤并量化部分得分，这要求对数学证明的语义有深刻理解；以及将自然语言问题与样本解答、评分示例进行对齐，形成可机器解析的统一格式，以支持自动化评估流程的可靠实施。

常用场景

经典使用场景

在数学竞赛与人工智能交叉领域，MathArena/usamo_2025数据集为评估大型语言模型在高级数学推理任务上的性能提供了基准。该数据集收录了美国数学奥林匹克竞赛2025年的题目，每道题均包含完整的问题陈述、评分方案及标准解答，使得研究者能够系统性地测试模型在复杂数学证明生成与结构化评分方面的能力。通过模拟真实竞赛环境，该数据集成为衡量模型数学思维严谨性与逻辑连贯性的关键工具。

解决学术问题

该数据集主要针对人工智能在数学推理领域的两大核心挑战：一是模型在未经专门训练的高难度数学问题上的泛化能力，二是对模型输出进行客观、结构化评估的标准化方法。通过提供带有详细评分方案的竞赛级题目，它使得研究者能够量化模型在证明步骤分解、逻辑链条构建等方面的表现，从而推动可解释性数学人工智能的发展，并为模型能力的边界探索提供实证基础。

实际应用

在实际应用中，该数据集为开发教育辅助工具和智能解题系统提供了高质量的测试床。教育科技公司可利用它来训练或评估能够引导学生进行分步推理的数学辅导AI。同时，竞赛组织者和命题者也能借鉴其结构化评分方案，设计更公平、透明的自动化评分流程。这些应用不仅提升了数学学习的个性化体验，也为标准化评估体系的建立提供了参考范式。

数据集最近研究