MathArena/arxivmath

Name: MathArena/arxivmath
Creator: MathArena
Published: 2026-04-03 17:56:09
License: 暂无描述

Hugging Face2026-04-03 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/arxivmath

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于MathArena Leaderboard的ArXivMath问题。问题涵盖了组合数学、数论、代数和几何等类型，每个问题都有索引、问题陈述、答案和问题类型等字段。

This dataset contains the questions from ArXivMath used for the MathArena Leaderboard. The questions cover types such as Combinatorics, Number Theory, Algebra, and Geometry, with each question having fields like index, problem statement, answer, and problem type.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学推理与大型语言模型评估领域，ArXivMath数据集源自公开的数学竞赛题目，其构建过程体现了严谨的学术筛选。数据集从ArXivMath平台系统采集原始问题，并依据组合数学、数论、代数与几何等核心数学分支进行精细分类与标注。每个样本均包含完整的问题陈述、标准答案及多标签问题类型，确保了数据在学术评估中的可靠性与结构性。

特点

该数据集以其纯净无污染的数学竞赛题目为核心特征，专门设计用于评估大型语言模型在复杂数学推理任务上的真实性能。其独特之处在于每个问题可关联多个数学类型标签，如组合数学与几何的交叉，这反映了现实数学问题的复合性。数据规模虽精炼，但覆盖了数学竞赛的典型领域，为模型评估提供了高信度的基准。

使用方法

研究人员可利用该数据集直接加载至机器学习框架中，通过问题陈述作为输入，对比模型输出与标注的标准答案，以定量评估模型的数学解题能力。典型应用包括在训练或微调前后测试模型的零样本或少样本推理性能，尤其适合用于验证模型在未被训练数据污染的数学竞赛任务上的泛化能力。数据集遵循CC BY-SA 4.0许可，确保了使用的合规性与开放性。

背景与挑战

背景概述

ArXivMath数据集由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建，旨在评估大型语言模型在数学竞赛问题上的推理能力。该数据集聚焦于组合数学、数论、代数与几何等核心数学领域，通过收集未经污染的竞赛题目，为模型评估提供了高质量基准。其设计反映了当前人工智能研究中对复杂逻辑与符号推理的迫切需求，推动了数学问题求解领域的标准化进程。

当前挑战

该数据集致力于解决数学问题自动求解中的挑战，特别是模型在跨领域数学推理上的泛化能力与严谨性不足。构建过程中，团队需确保题目的原创性与未被现有训练数据污染，同时精确标注多标签问题类型以覆盖复合型数学问题。这些挑战凸显了在保持学术严谨性与数据纯净度之间平衡的复杂性。

常用场景

经典使用场景

在数学推理与自然语言处理交叉领域，ArXivMath数据集常被用于评估大型语言模型在数学竞赛问题上的解决能力。该数据集汇集了来自ArXivMath平台的数学竞赛题目，涵盖组合数学、数论、代数与几何等多个子领域，为研究者提供了一个标准化的测试平台。通过将问题陈述与标准答案配对，模型能够接受端到端的数学推理训练与评估，从而推动数学智能的发展。

实际应用

在实际应用中，ArXivMath数据集可服务于智能教育系统与竞赛辅导平台的开发。基于该数据集训练的模型能够为学生提供个性化的数学问题解答与步骤指导，模拟竞赛环境下的解题过程。此外，它还可集成至在线学习平台，实现自动题目生成与难度评估，辅助教师进行教学资源设计。在科研领域，该数据集为构建专业数学问题求解器提供了验证基准，促进了人工智能与数学教育的深度融合。

衍生相关工作

围绕ArXivMath数据集，已衍生出一系列专注于数学推理的经典研究工作。例如，MathArena评估框架利用该数据集构建了大型语言模型的数学能力排行榜，系统比较了不同模型在未接触竞赛题目上的表现。相关研究进一步探索了多模态数学推理、符号计算与自然语言理解的结合，以及针对几何证明等特定子任务的专用模型。这些工作共同推动了数学智能评估标准的完善，为后续更复杂的数学问题求解研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集