arxivmath-0426_outputs

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/MathArena/arxivmath-0426_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用MathArena GitHub仓库生成的针对2026年4月ArXivMath问题的模型答案。数据集详细记录了每个问题的索引、问题陈述、模型名称、模型配置、回答尝试索引、完整对话记录、用户提示、模型响应、输入输出令牌数、成本估算、来源论文标识、标准答案、解析后的答案以及答案正确性。数据集适用于评估大型语言模型在数学问题上的表现，支持自动评分和成本分析。数据集规模为492个训练样本，总大小约55.98MB，采用CC BY-SA 4.0许可协议。

This dataset contains model answers generated using the MathArena GitHub repository for ArXivMath problems from April 2026. It includes detailed records for each problem, such as problem index, problem statement, model name, model configuration, answer attempt index, full conversation history, user prompt, model response, input/output token counts, cost estimates, source paper identifiers, standard answers, parsed answers, and answer correctness. The dataset is suitable for evaluating the performance of large language models on mathematical problems, supporting automatic scoring and cost analysis. It consists of 492 training samples, with a total size of approximately 55.98MB, and is licensed under CC BY-SA 4.0.

创建时间：

2026-05-05

原始信息汇总

数据集概述：Model Outputs ArXivMath April 2026

基本信息

数据集名称：Model Outputs ArXivMath April 2026
主页：https://matharena.ai/
仓库：https://github.com/eth-sri/matharena
许可协议：CC BY-SA 4.0
语言：英语
数据集大小：约 1K < n < 10K 个样本
下载大小：25,135,225 字节
数据集总大小：55,982,888 字节

数据集描述

该数据集包含使用 MathArena 代码库生成的、针对 ArXivMath（2026年4月）问题的模型回答。

数据字段说明

字段名	类型	描述
`problem_idx`	string	在 MathArena 基准中的问题索引
`problem`	string	向模型展示的问题描述
`model_name`	string	MathArena 结果中可读的模型名称
`model_config`	string	产生该回答的模型配置路径
`idx_answer`	int64	该模型/问题对的尝试序号
`all_messages`	string	本次尝试的完整会话（JSON序列化）
`user_message`	string	发送给模型的用户提示
`answer`	string	模型的完整回答
`input_tokens`	int64	本次尝试计费的输入 token 数
`output_tokens`	int64	本次尝试生成的输出 token 数
`cost`	float64	本次尝试的预估 API 费用（美元）
`input_cost_per_tokens`	float64	输入 token 单价（每百万 token 的美元数）
`output_cost_per_tokens`	float64	输出 token 单价（每百万 token 的美元数）
`source`	string	源论文的 arXiv 标识符
`gold_answer`	string	用于自动评分的标准答案
`parsed_answer`	string	经 MathArena 解析器从模型回答中提取的答案
`correct`	bool	解析后的模型答案是否与标准答案匹配

数据集划分

训练集：包含 492 个样本，占用 55,982,888 字节

引用信息

bibtex @article{dekoninck2026matharena, title={Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs}, author={Jasper Dekoninck and Nikola Jovanović and Tim Gehrunger and Kári Rögnvalddson and Ivo Petrov and Chenhao Sun and Martin Vechev}, year={2026}, eprint={2605.00674}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.00674}, }

搜集汇总

数据集介绍

构建方式

该数据集基于MathArena评估平台构建，旨在系统收集与整理大型语言模型（LLM）在数学推理任务中的表现。数据源自ArXivMath April 2026基准测试，通过向多个先进LLM提交问题，记录其完整生成过程。每条数据包含问题索引、原始问题陈述、模型名称及其配置、对话历史、用户提示与模型回复，并附有输入输出令牌数、估算API成本等元信息。此外，数据集中还提供了标准答案、经解析器提取的模型答案及正确性标注，便于后续分析与评估。

特点

数据集涵盖492条训练样本，每条样本结构丰富，包含16个字段，细致记录了从问题输入到答案输出的全链路信息。其独到之处在于融合了推理过程的元数据，如令牌使用与成本估算，为模型效率与经济性分析提供了支撑。同时，数据通过标准答案与解析答案的匹配机制，自动判别模型回答的正确性，便于进行大规模量化评估。数据集采用CC BY-SA 4.0许可协议，确保了学术共享与再创作的灵活性。

使用方法

可应用于大型语言模型数学推理能力的基准测试与对比研究。用户可直接加载训练集镜像数据，通过'problem'与'answer'字段开展模型输出分析，利用'correct'字段进行正确率统计。结合'input_tokens'与'cost'字段，可深入评估不同模型在数学任务上的资源效率。此外，数据集兼容HuggingFace Datasets库，支持便捷的数据加载与过滤操作，便于研究者快速开展定制化分析与实验。

背景与挑战

背景概述

随着大语言模型在数学推理领域的应用日益广泛，如何系统性地评估其解决高阶数学问题的能力成为关键。由苏黎世联邦理工学院安全与可靠系统实验室联合多所机构于2026年创建的ArXivMath-0426_outputs数据集，正是为了填补这一空白。该数据集依托于MathArena评估平台，收集了多种模型对ArXiv数学论文中问题的解答，其核心研究问题在于构建一个透明、可复现的评测框架，用以衡量LLM在数学任务上的真实表现。通过提供标准化的模型输出、代价和正确性标注，该数据集为后续研究提供了基准资源，对推动AI辅助数学发现与评估方法论的发展具有重要影响。

当前挑战

该数据集面临的首要挑战在于所解决的领域问题：数学推理评估需要模型具备符号理解与逻辑演绎的深层能力，远非自然语言对话可比，如何设计公平且具有区分度的评分机制是一大难题。在构建过程中，数据采集的典型困境包括模型输出解析的准确性——面对复杂数学符号与多样化解题路径，自动评分器可能误判正确性。此外，不同模型的输入输出代际差异与API成本估算需要统一标准化处理，确保跨模型比较的公平性。同时，源数据涉及大量arXiv论文，版权与引用规范的遵守提高了数据清洗的复杂性，对数据集的稳健性构成了持续挑战。

常用场景

经典使用场景

在数学推理与大规模语言模型交叉研究领域，arxivmath-0426_outputs数据集被广泛用作评估模型数学解题能力的标准化测试平台。研究者通常将待评测的大语言模型输入该数据集中源自ArXiv数学论文的高质量题目，通过自动解析与基准答案比对，量化模型在符号运算、逻辑推导及多步推理任务上的表现。该数据集尤其适用于对比不同模型架构、训练策略或推理技术（如思维链、自我一致性）对数学问题求解准确率的影响，成为检验大语言模型数学能力演化路径的经典工具。

解决学术问题

该数据集着力解决了大语言模型在高等数学推理评估中缺乏权威、透明基准的核心学术困境。传统数学评测集常受限于题目来源模糊或答案标注主观，而arxivmath-0426_outputs依托于ArXiv论文的原始数学问题与黄金答案，确保了评估的客观性与可复现性。它帮助研究者精准识别模型在代数、分析、几何等子领域的薄弱环节，推动了关于模型形式化推理能力边界与优化方向的系统性探讨，为构建更鲁棒的数学智能体奠定了数据基础。

衍生相关工作

受该数据集启发，学术界涌现出多项标志性工作。MathArena平台本身即以此为基础，构建了集评测、可视化与竞赛于一体的数学推理评估生态。后续研究如Chain-of-Thought蒸馏方法、自一致性推理增强策略以及多语言数学模型微调等，均直接引用该数据集作为验证基准。更深入的工作则探讨了模型在逆向证明、开放域数学问题上的泛化能力，衍生出关于推理鲁棒性与可解释性的前沿课题，推动了数学人工智能领域的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集