arxivmath-0426

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/MathArena/arxivmath-0426

下载链接

链接失效反馈

官方服务：

资源简介：

ArXivMath April 2026数据集包含用于MathArena排行榜的数学问题，源自2026年4月的arXiv数学论文。数据集包含41个样本，每个样本包含以下字段：问题索引（problem_idx）、最终答案（answer）、问题陈述（problem，通常为LaTeX格式）、来源论文的arXiv标识符（source）、论文标题（title）和作者（authors）。该数据集适用于数学问题解答和大型语言模型评估任务，采用CC BY-SA 4.0许可协议发布。

创建时间：

2026-05-05

原始信息汇总

数据集概述：ArXivMath April 2026

基本信息

数据集名称： ArXivMath April 2026
语言： 英语（en）
许可证： CC BY-SA 4.0（署名-相同方式共享 4.0 国际）
大小类别： n<1K（样本数量少于1000）

数据集规模

总样本数： 41 条（仅包含训练集）
数据集总大小： 24058 字节
下载大小： 20716 字节

数据字段

该数据集包含以下字段：

字段名	数据类型	描述
`problem_idx`	int64	在对应 MathArena 基准测试中的问题索引
`answer`	string	标准答案
`problem`	string	问题描述，通常以 LaTeX 源码形式存储
`source`	string	源论文的 arXiv 标识符
`title`	string	源 arXiv 论文的标题
`authors`	string	源 arXiv 论文的作者

数据集用途

该数据集包含来自 ArXivMath April 2026 的问题，用于 MathArena 排行榜 的评估。

引用信息

如使用该数据集，请引用以下论文：

@article{dekoninck2026matharena, title={Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs}, author={Jasper Dekoninck and Nikola Jovanović and Tim Gehrunger and Kári Rögnvalddson and Ivo Petrov and Chenhao Sun and Martin Vechev}, year={2026}, eprint={2605.00674}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.00674}, }

搜集汇总

数据集介绍

构建方式

ArXivMath-0426 数据集源自数学领域权威预印本平台 arXiv 上于 2026 年 4 月发布的论文，由 MathArena 团队精心筛选与整理而成。构建过程中，团队从海量数学文献中提取出具有明确解答的问题，确保每个问题均包含问题陈述、标准答案、出处论文的 arXiv 标识符、论文标题及作者信息，并以 LaTeX 格式保存问题原文，从而保证了数据集的学术严谨性与可复现性。该数据集共计包含 41 个训练样本，数据规模虽小但聚焦于高质量数学问题，旨在为大型语言模型的数学推理能力评估提供精准、可靠的基准测试资源。

使用方法

研究者可直接通过 Hugging Face Datasets 库加载该数据集，默认配置下将获取训练集，其中包含 41 条带有问题索引、标准答案、问题文本、来源论文标识符、标题和作者信息的数据样例。在使用时，可将问题文本作为语言模型的输入，将标准答案作为评估模型数学推理能力的参考，从而量化模型在真实数学问题上的表现。由于数据规模较小，该数据集特别适合用于快速验证模型改进效果或作为零样本推理测试的组成部分，结合 MathArena 排行榜可全面评估模型的数学解题水平。

背景与挑战

背景概述

在数学推理与自然语言处理交叉领域，大型语言模型（LLMs）的数学能力评估一直是研究热点。为解决现有基准测试（如GSM8K、MATH）在问题多样性与真实性上的局限，苏黎世联邦理工学院（ETH Zurich）安全可靠智能系统实验室的研究人员Jasper Dekoninck、Nikola Jovanović等人于2026年创建了MathArena评测平台，并同步发布了arxivmath-0426数据集。该数据集源自2026年4月arXiv上发布的数学论文，包含41道精选问题，以LaTeX格式存储问题陈述与标准答案，旨在为LLMs提供更具学术深度和原创性的数学推理测试集。作为MathArena的核心组件，该数据集推动了数学推理评估从封闭式算数题向开放式、论文级问题的转变，对衡量LLMs在高等数学领域的真实能力具有里程碑意义。

当前挑战

该数据集所解决的领域核心挑战在于现有数学基准测试的问题类型与难度无法有效区分前沿模型性能，如GSM8K已接近饱和，而MATH题库存在数据泄露风险。arxivmath-0426通过采集真实学术论文中的问题，要求模型进行深层次数学推理与符号理解，而非简单模式匹配。在构建过程中，研究人员面临诸多挑战：首先需从海量arXiv论文中筛选出具有明确答案且可自动验证的问题，避免歧义；其次要处理LaTeX格式的复杂数学符号与多步推理过程，确保答案的标准化与可比较性；此外，由于数据集规模仅41例，如何在有限样本中保持难度梯度与领域覆盖度，避免模型过拟合，也是设计时的重要考量。

常用场景

经典使用场景

在数学推理与人工智能的交叉领域，ArXivMath-0426数据集作为MathArena评估平台的核心组成部分，专为衡量大型语言模型在高等数学问题求解上的能力而设计。该数据集汇集了源自arXiv预印本的真实数学题目，涵盖代数、几何、分析等多个分支，要求模型不仅理解复杂的LaTeX表述，还需生成精确的最终答案。其经典使用场景包括作为标准化测试集，用于对比不同LLM在数学推理任务上的表现，例如评估模型对定理证明、方程求解及数学符号操作的掌握程度。

解决学术问题

该数据集有效应对了学术研究中关于LLM数学推理能力量化评估的挑战。传统基准测试往往依赖合成数据或简单算数问题，难以反映模型在真实数学语境下的泛化能力。ArXivMath-0426通过引入高难度、多领域的原始数学问题，推动研究者深入探索模型在符号推理、逻辑一致性及抽象思维方面的局限与潜能。其意义在于为数学人工智能领域提供了更具挑战性的评估基准，促进了从模式匹配到真正数学理解的研究范式转变，深刻影响了后续模型架构设计与训练策略的优化。

实际应用

在实际应用中，ArXivMath-0426所代表的数学推理评估体系已被广泛整合至AI教育科技与自动解题系统之中。例如，基于该数据集开发的评估流程可用于智能辅导平台，自动诊断学生在高等数学学习中的薄弱环节。此外，模型在该数据集上的表现成为衡量学术级数学人工智能助手实用性的关键指标，助力科研机构筛选具备辅助定理发现或证明验证能力的系统，从而加速数学知识生产与验证的自动化进程。

数据集最近研究