MathArena/arxivmath-0326

Name: MathArena/arxivmath-0326
Creator: MathArena
Published: 2026-05-08 10:26:32
License: 暂无描述

Hugging Face2026-05-08 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/arxivmath-0326

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2026年3月ArXivMath中的问题，用于MathArena排行榜。数据集包含数学问题及其答案，问题来源于arXiv论文。具体字段包括：问题索引（problem_idx）、答案（answer）、问题类型（problem_type）、来源（source）和问题陈述（problem）。数据集规模较小，包含30个训练示例，使用CC BY-SA 4.0许可。

This dataset contains the questions from ArXivMath March 2026 used for the MathArena Leaderboard. It includes mathematical problems and their answers, sourced from arXiv papers. The fields include: problem index (problem_idx), answer (answer), problem type (problem_type), source (source), and problem statement (problem). The dataset is small in size with 30 training examples and is licensed under CC BY-SA 4.0.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，arXivMath-0326数据集源自2026年3月发布的ArXivMath竞赛题目，由苏黎世联邦理工学院SRI实验室的MathArena项目精心构建。该数据集通过系统收集竞赛中的完整问题陈述及其标准答案，并辅以问题索引和类型标注，确保了数据的权威性和结构性。构建过程中，团队严格遵循学术规范，将每个问题归类为组合数学、数论、代数或几何等数学分支，部分题目可能涵盖多个类型，从而为模型评估提供了多维度的数学挑战。

特点

本数据集的核心特点在于其纯净性与专业性，所有题目均未在大型语言模型的训练数据中出现过，有效避免了数据污染问题。数据集规模虽小，仅包含31个示例，但每个问题都经过精心挑选，覆盖了组合数学、数论、代数和几何等核心数学领域，且支持多标签分类，反映了真实数学竞赛中问题的复杂性和交叉性。这种设计使得arXivMath-0326成为评估模型在未见过数学问题上的推理能力的理想基准，尤其适合用于测试模型的泛化性能和学科深度。

使用方法

使用arXivMath-0326数据集时，研究人员可将其直接应用于数学问题求解模型的评估与基准测试。典型流程包括加载数据集中的问题陈述作为模型输入，并比较模型生成的答案与数据集中提供的标准答案，以计算准确率或其他性能指标。由于数据集已按竞赛索引和类型组织，用户可轻松进行分领域分析，例如专门评估模型在几何或数论问题上的表现。建议结合MathArena平台的相关工具，确保评估过程的标准化，并遵循CC BY-SA 4.0许可协议，在学术工作中正确引用原始研究。

背景与挑战

背景概述

在人工智能与数学推理交叉领域，评估大型语言模型在复杂数学问题上的能力已成为前沿研究焦点。ArXivMath March 2026数据集由苏黎世联邦理工学院SRI实验室于2025年构建，旨在为MathArena排行榜提供基准测试资源。该数据集聚焦于数学竞赛级别的题目，涵盖组合数学、数论、代数与几何等多个核心分支，其核心研究问题在于探究模型在未受污染的真实数学问题上的泛化与推理性能。该数据集的发布推动了数学自动推理领域的发展，为模型评估提供了高质量、多样化的测试平台，对促进教育技术与自动化解题系统的进步具有显著影响力。

当前挑战

该数据集旨在解决数学问题自动解答领域的挑战，特别是评估模型在跨领域、高难度竞赛题目上的综合推理能力。其构建过程中面临多重挑战：首先，题目需涵盖组合数学、数论、代数与几何等不同分支，确保类型多样性与代表性；其次，数据收集需避免模型训练数据的污染，保证评估的公正性与可靠性；此外，问题标注要求精确的答案与类型分类，对人工校验与质量控制提出了较高要求。这些挑战共同指向了构建无偏、全面且高质量的数学评估基准的复杂性。

常用场景

衍生相关工作

围绕该数据集，已衍生出多项聚焦于数学大模型评估与提升的经典研究工作。例如，MathArena竞赛平台利用该数据集构建了持续的排行榜，激励社区开发更强大的数学推理模型。相关研究进一步探索了思维链提示、程序合成以及符号计算与神经模型结合等方法，以攻克数学问题求解中的泛化与严谨性难题。

数据集最近研究