MathArena/arxivmath-0426

Name: MathArena/arxivmath-0426
Creator: MathArena
Published: 2026-05-06 07:49:23
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/arxivmath-0426

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了2026年4月ArXivMath的问题，用于MathArena排行榜。

This dataset contains the questions from ArXivMath April 2026 used for the MathArena Leaderboard.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

ArXivMath April 2026数据集源自于MathArena项目，旨在为大语言模型在数学领域的评估提供标准化基准。该数据集通过系统性地收集2026年4月arXiv上发布的数学论文，从中精炼出具有代表性的数学问题。每道题目均配有问题索引、标准答案、问题陈述（以LaTeX格式存储）、来源论文的arXiv标识符、论文标题及作者信息，构建过程严谨且透明。数据集的构建不仅关注题目本身的数学价值，更注重与原始学术文献的紧密关联，从而确保问题来源的权威性与可追溯性。

特点

该数据集包含41个训练样本，规模虽小却极具代表性，专为MathArena排行榜设计，聚焦于高水平数学推理能力的评测。每条样本均包含problem_idx、answer、problem、source、title和authors六个字段，其中问题以LaTeX源码形式呈现，保留了数学符号与公式的精确性。数据集的许可协议为CC BY-SA 4.0，支持开源共享与再创作，同时提供了详细的引用信息与官方主页，方便学术界追踪与引用。其核心价值在于为评估大语言模型在数学问题求解上的表现提供结构化、高质量的基准测试集。

使用方法

使用该数据集时，用户可直接从HuggingFace下载训练集，数据以parquet格式存储，便于加载与解析。推荐通过HuggingFace的datasets库进行导入，如使用load_dataset函数指定数据集名称‘arxivmath-0426’即可获取。每道问题的‘problem’字段可直接作为模型输入，‘answer’字段用于验证推理结果。用户可基于此数据集在MathArena框架下进行模型评测，或自行构建评估流水线，比较不同语言模型在数学推理任务上的表现。引用时需注明来源论文，以尊重原创作者的工作。

背景与挑战

背景概述

在人工智能与数学推理的交叉领域，大语言模型（LLMs）的数学能力评估一直是研究的热点与难点。为了填补现有基准测试在真实数学问题上的空白，由ETH Zurich的Jasper Dekoninck、Nikola Jovanović等研究人员于2026年创建的ArXivMath-0426数据集应运而生。该数据集源自MathArena项目，旨在通过收录来自arXiv数学论文的高质量题目，为LLMs提供一个更具挑战性与真实性的评估环境。其核心研究问题在于：传统基准测试往往存在数据污染与题目简化的风险，而基于最新发表的数学论文构建的题目集，能够更公正地衡量模型在复杂推理与领域知识迁移上的能力。作为MathArena排行榜的组成部分，该数据集不仅推动了数学推理评估范式的革新，也为后续研究提供了可复现的标准化平台，对计算语言学和数学教育领域产生了深远影响。

当前挑战

该数据集所面临的挑战主要体现于两个层面。在领域问题层面，现有LLMs在面对源自前沿数学研究的题目时，往往暴露出符号推演不严谨、多步推理易出错及缺乏创造性证明能力等缺陷，这直接制约了模型在辅助数学发现与教育等应用场景中的实用性。在数据集构建层面，研究人员面临的首要挑战是数据筛选的纯度问题——从海量arXiv论文中提取出具有明确答案且推理链完整的题目，需耗费大量专家人工校验以避免语义歧义。此外，题目格式的统一性也构成挑战，由于原始论文采用多样化的LaTeX排版，清洗与标准化过程必须兼顾数学表达式的精确性与解析器的通用性，而持续追踪最新论文以更新数据集的做法，则对版本控制和时效性维护提出了更高要求。

常用场景

经典使用场景

在数学推理与自然语言处理的交叉研究领域中，arxivmath-0426数据集被广泛用于评估大型语言模型的数学问题求解能力。该数据集收录了来自2026年4月arXiv预印本中的数学竞赛与科研问题，每个样本均包含LaTeX格式的问题陈述、标准答案及其原始论文来源。研究者通常将其作为MathArena排行榜的标准化测试集，通过对比模型在严谨数学推理任务上的表现，衡量其在符号运算、逻辑演绎与多步推导等核心能力上的进展。

实际应用

在实际应用层面，该数据集为数学教育智能化与科研辅助系统的开发提供了关键测试资源。教育科技公司可借助其对开发的AI数学辅导工具进行压力测试，评估系统在解答高等数学、数论或代数拓扑等专业问题时的准确率。同时，科研机构利用该数据集验证自动定理证明器、科学计算引擎或论文辅助审核工具的逻辑严谨性，从而加速数学领域人机协作的实用化进程。

衍生相关工作

基于该数据集衍生出的代表性工作包括MathArena评估平台的构建，它系统化比较了GPT-4、Claude、Llama等主流模型在真实arXiv数学问题上的表现。此外，研究者利用该数据集训练了面向数学推理的专用模型微调策略，开发了能够生成连贯LaTeX解题步骤的强化学习框架。还有团队以其为测试床，设计可解释性模块用于剖析模型解题时的注意力分布，揭示了当前架构在符号推理中的潜在缺陷。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集