MathArena/arxivmath-0326_outputs

Name: MathArena/arxivmath-0326_outputs
Creator: MathArena
Published: 2026-05-08 10:33:35
License: 暂无描述

Hugging Face2026-05-08 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/arxivmath-0326_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用MathArena GitHub仓库生成的ArXivMath 2026年3月问题的模型答案。数据集包含多个字段，如问题索引、问题陈述、模型名称、模型配置、回答索引、完整对话、用户提示、模型响应、输入输出令牌数、成本估算、来源标识、黄金答案、解析答案和正确性判断等。数据集主要用于评估大型语言模型在数学问题上的表现。

This dataset contains model answers to the questions from ArXivMath March 2026 generated using the MathArena GitHub repository. The dataset includes various fields such as problem index, problem statement, model name, model configuration, answer index, full conversation, user prompt, model response, input/output tokens, cost estimation, source identifier, gold answer, parsed answer, and correctness judgment. The dataset is primarily used for evaluating the performance of large language models on mathematical problems.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，arxivmath-0326_outputs数据集通过MathArena平台系统构建，其核心源于ArXivMath March 2026竞赛的数学问题。每个问题均配有标准答案（gold_answer），并利用多种大型语言模型进行多次解答尝试，每次尝试均记录详细的模型配置与交互过程。数据收集过程涵盖了完整的对话历史（all_messages）、用户输入信息（user_message）以及模型生成的原始答案与解析后答案（parsed_answer），同时整合了计算资源消耗指标如令牌数量与成本，确保了数据在评估模型数学推理能力时的全面性与可追溯性。

特点

该数据集的特点在于其专注于未受污染的数学竞赛问题，有效避免了数据泄露对评估结果的影响。数据集不仅提供了丰富的模型输出与交互轨迹，还包含精确的答案正确性标注（correct），这得益于MathArena专用解析器的自动化评估。此外，每条记录均附有详细的资源使用数据，包括输入输出令牌数及相应成本，为研究模型效率与经济性提供了量化基础。这种多维度、结构化的设计使得数据集在衡量语言模型的数学问题解决能力与性能分析方面具有显著的学术价值。

使用方法

使用该数据集时，研究人员可首先依据problem_idx与model_name字段筛选特定问题或模型的解答记录。通过对比answer、parsed_answer与gold_answer，并结合correct字段，能够系统评估不同模型在复杂数学问题上的准确率与可靠性。同时，利用input_tokens、output_tokens及cost等经济指标，可以进行模型效率与成本效益的横向比较。数据集支持对多次尝试（idx_answer）的分析，有助于探究模型输出的稳定性与一致性，为优化模型配置与提示工程提供实证依据。

背景与挑战

背景概述

随着大型语言模型在数学推理领域展现出日益增强的潜力，对其在复杂、未受污染数学竞赛问题上的系统性评估需求应运而生。MathArena项目由苏黎世联邦理工学院SRI实验室的研究团队于2025年发起，旨在构建一个严谨的基准测试平台，以评估不同模型在解决源自ArXivMath等竞赛的数学问题时的性能。该数据集‘arxivmath-0326_outputs’作为MathArena框架的一部分，专门收录了针对2026年3月ArXivMath竞赛问题生成的多模型输出结果，为核心研究问题——即如何客观衡量模型在真实数学挑战中的泛化与推理能力——提供了宝贵的实证数据，对推动数学人工智能的可靠评估具有重要影响力。

当前挑战

该数据集致力于解决数学问题自动求解领域的核心挑战，即如何准确评估大型语言模型在复杂、多步骤数学推理任务上的真实能力。其面临的挑战具体体现在两个方面：其一，在领域问题层面，数学竞赛问题通常包含深层的逻辑结构、符号运算与开放式推理，要求模型不仅需具备知识记忆，更需拥有严谨的演绎与归纳能力，而现有评估方法在捕捉此类细微推理过程与避免表面字符串匹配的误判上存在显著困难；其二，在构建过程中，确保数据来源的纯净性以避免模型在训练阶段已接触过测试数据，以及设计能够精确解析模型输出、并与标准答案进行语义等价性比对的自动化评估流程，均是极具技术复杂性的关键挑战。

常用场景

经典使用场景

在数学推理与大型语言模型评估领域，arxivmath-0326_outputs数据集为研究者提供了一个标准化的基准平台。该数据集收录了多个模型对ArXivMath竞赛问题的解答，涵盖问题陈述、模型输出、正确答案及解析结果，使得研究者能够系统性地比较不同模型在复杂数学问题上的表现。通过分析模型生成的答案与标准答案的一致性，该数据集常用于评估模型的数学推理能力、逻辑严谨性以及泛化性能，为模型优化提供了数据支撑。

衍生相关工作

围绕arxivmath-0326_outputs数据集，已衍生出一系列重要的学术工作与工具。例如，MathArena平台利用该数据集构建了持续的模型评估框架，支持对新兴大型语言模型进行实时数学能力测试。相关研究进一步探索了模型在数学问题上的多步推理机制、错误纠正策略以及少样本学习性能，这些工作不仅深化了对模型数学认知的理解，还催生了新的评估指标与基准测试方法，为数学人工智能领域的标准化进程贡献了关键资源。

数据集最近研究