MathArena/arxivmath-0426_outputs
收藏Hugging Face2026-05-06 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/MathArena/arxivmath-0426_outputs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含通过MathArena GitHub仓库生成的针对ArXivMath April 2026问题的模型回答。数据集详细记录了每个问题的索引、问题陈述、模型名称、模型配置、回答索引、完整的对话记录、用户提示、模型响应、输入和输出的token数量、成本估计、来源arXiv标识符、黄金答案、解析后的答案以及答案是否正确等信息。
This dataset contains model responses to the ArXivMath April 2026 questions generated via the MathArena GitHub repository. It comprehensively records the index of each question, question statement, model name, model configuration, response index, complete conversation history, user prompt, model response, number of input and output tokens, cost estimate, source arXiv identifier, gold answer, parsed answer, and whether the answer is correct.
提供机构:
MathArena
搜集汇总
数据集介绍

构建方式
该数据集基于MathArena评估平台构建,旨在系统性地收录大型语言模型在数学推理任务中的表现。研究团队从arXiv数学领域筛选出发表于2026年4月的论文题目,形成基准问题集。随后,利用MathArena仓库中的标准化流程,将问题以统一格式输入至多种语言模型,并记录完整的交互对话、模型配置及推理成本等元数据。每道题目均附有人工验证的标准答案,并通过解析器自动提取模型输出中的数学表达式,与标准答案进行比对,最终以布尔值标记其正确性。
特点
该数据集的核心特色在于其细粒度的元数据记录与可复现性设计。每条样本不仅包含问题与模型回答,还详细记载了输入输出令牌数、API调用成本、模型配置参数等工程细节,为研究者提供了成本效益分析与推理效率评估的原始依据。此外,数据集统一采用arXiv论文标识符作为来源标记,便于回溯原始文献。通过标准答案的自动解析与比对机制,实现了大规模模型输出的客观量化评价,为数学领域的语言模型能力研究提供了可靠的数据基础。
使用方法
该数据集适用于数学推理任务的模型性能评估与分析。研究者可直接加载JSON序列化的完整对话记录,复现模型推理过程;亦可利用'correct'字段快速统计各模型的正确率。结合'cost'与令牌计数,用户能构建预算约束下的优化策略。数据集默认采用训练集划分,支持基于'problem_idx'与'model_name'的多维度筛选,便于按题目类型或模型来源进行子集分析。建议结合MathArena官方工具库,以标准化的解析与评分流程开展对比实验。
背景与挑战
背景概述
随着大语言模型在数学推理领域的迅速发展,如何系统性地评估其解决复杂数学问题的能力成为研究焦点。在此背景下,由ETH Zurich的Martin Vechev团队于2026年创建的arxivmath-0426_outputs数据集应运而生,作为MathArena评估框架的关键组成部分。该数据集收录了多个大语言模型对arXiv数学论文中问题的回答,涵盖492个训练样本,每项记录包含模型输出、成本信息及自动评分结果。其核心研究问题在于超越传统基准测试,构建一个可复现、多维度的数学推理评估平台,通过细粒度指标(如token消耗、正确率等)揭示模型在真实数学问题上的表现差异。该数据集及其配套平台MathArena已被相关领域广泛关注,为数学推理模型的横向对比与性能诊断提供了标准化工具。
当前挑战
该数据集所解决的领域问题主要体现为数学推理评估的三大挑战:其一,现有基准测试多依赖封闭式问题,难以覆盖开放式数学推理场景,而该数据集基于arXiv论文构建,保留了问题的复杂性与学科多样性;其二,模型输出的自动评分面临语义等价性判定的困难,需通过精心设计的解析器从自由文本中提取数学答案;其三,计算成本与性能的权衡分析需要标准化记录,该数据集通过记录token消耗与API费用,为资源受限场景下的模型选择提供依据。在构建过程中,挑战集中于答案抽取的鲁棒性——不同模型输出格式差异巨大,导致解析错误率较高;同时,跨模型、跨配置的代价估算需统一计价策略,以避免成本计算偏差影响模型对比的公平性。
常用场景
经典使用场景
在数学推理与大型语言模型交叉研究的前沿领域,arxivmath-0426_outputs数据集扮演着评估模型数学能力的关键角色。该数据集收录了多种语言模型对ArXivMath基准中数学问题的解答,包含模型名称、配置、交互消息、输入输出令牌数及成本等丰富字段。经典使用场景是作为标准化测试集,通过比较模型输出与标准答案的匹配程度,系统性地评估不同LLMs在复杂数学推理任务上的表现。研究者可借助该数据集分析模型在符号运算、逻辑推导和数学证明等子任务中的优劣,从而推动数学导向大语言模型的性能优化与迭代。
衍生相关工作
围绕该数据集,学术界已孕育出一系列影响深远的研究成果。核心代表即为本数据集依托的MathArena评估平台,该平台提出了超越传统基准测试的数学推理评测框架,通过多轮交互与自动评分机制,系统性地揭露了当前LLMs在数学严谨性上的不足。此外,基于该数据集衍生出的工作包括:针对模型数学推理一致性的鲁棒性研究、多步推理链的误差传播分析,以及利用成本数据开展的模型效率对比研究。这些工作共同推动了数学导向大语言模型从单纯追求准确率向兼顾推理深度与资源效率的方向演进。
数据集最近研究
最新研究方向
针对arxivmath-0426_outputs数据集的最新研究聚焦于利用大规模语言模型(LLM)在高等数学推理任务中的表现评估与成本效益分析。随着MathArena平台在2026年的提出,该数据集成为衡量模型在复杂数学问题求解能力上的关键基准。前沿方向包括探索模型输出的准确性、生成成本与token效率之间的权衡,以及通过解析模型答案与标准答案的匹配度,揭示当前LLM在符号推理与形式化数学方面的局限。这一研究紧密关联着AI在科学研究自动化中的热点,例如辅助定理证明与数学发现,其深远意义在于推动更高效、更经济的数学推理模型的设计,为未来智能教育及科研工具的开发奠定实证基础。
以上内容由遇见数据集搜集并总结生成



