MathArena/apex_2025_outputs

Name: MathArena/apex_2025_outputs
Creator: MathArena
Published: 2025-10-17 17:45:51
License: 暂无描述

Hugging Face2025-10-17 更新2025-09-13 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/apex_2025_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了使用MathArena GitHub仓库生成的MathArena Apex 2025竞赛问题的模型答案。每个问题都有多个模型的回答尝试，并包括问题的索引、完整问题描述、真实答案、模型名称、模型配置路径、用户消息、模型答案、解析后的答案、答案是否正确、输入和输出的token数量、总成本以及每百万输入和输出token的成本。

This dataset contains model answers to questions from the MathArena Apex 2025 competition generated using the MathArena GitHub repository. Each question has multiple attempts of answers from different models, including problem index, full problem statement, ground-truth answer, model name, model configuration path, user message, model answer, parsed answer, correctness of the answer, number of input and output tokens, total cost, and cost per one million input and output tokens.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，MathArena/apex_2025_outputs数据集的构建体现了严谨的实证研究范式。该数据集源自2025年度多项数学竞赛的原始题目，经过专业提取与LaTeX格式转换，并进行了严格的验证流程。通过MathArena开源框架，研究人员对每个问题进行了多轮模型测试，系统记录了包括问题索引、完整题干、模型配置参数在内的结构化信息。特别值得注意的是，每个问题都配备了标准答案和经过解析器处理的模型输出，同时精确计量了计算资源消耗指标，形成了完整的评估闭环。

特点

该数据集最显著的特征在于其评估框架的完整性与透明度。每个数据样本不仅包含原始问题陈述和模型生成的完整回答，还提供了经过专业解析器处理的规范化答案，以及基于数学逻辑的准确性判定。数据集详细记录了每次交互的令牌消耗与经济成本，为模型效率研究提供了量化基础。其多轮测试设计允许研究者分析模型输出的稳定性，而标准答案与解析答案的双重标注机制，则有效避免了简单字符串匹配可能导致的误判，确保了评估结果的科学严谨性。

使用方法

研究人员可借助该数据集开展多维度的大语言模型数学推理能力评估。典型应用场景包括：通过对比不同模型在相同问题上的表现，进行横向性能分析；利用多轮回答数据研究模型输出的随机性与一致性；结合令牌消耗与成本指标，开展模型效率与经济效益的权衡研究。使用时应特别注意解析答案与标准答案的比较需依赖专用评估工具，避免直接字符串匹配。数据集遵循CC BY-NC-SA 4.0许可协议，适用于学术研究与模型开发，但需遵守非商业用途的限制条款。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的时代背景下，数学推理能力已成为衡量其智能水平的关键维度。MathArena/apex_2025_outputs数据集由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建，其核心研究问题聚焦于如何精准、无污染地评估LLM在复杂数学竞赛问题上的表现。该数据集收录了针对MathArena Apex 2025竞赛题目的多模型、多轮次解答输出，旨在为LLM的数学推理能力提供一个标准化、可复现的基准测试平台，对推动模型在符号计算与逻辑推理领域的进步具有显著影响力。

当前挑战

该数据集致力于解决数学问题求解这一核心领域挑战，其难点在于如何设计一个能够公平、全面评估不同LLM在高级数学竞赛题上表现的评价框架。构建过程中的挑战则具体体现在数据收集与处理层面：首先，需要从2025年各类数学竞赛中提取、转换并验证原始题目，确保其格式统一与内容准确；其次，在生成模型答案时，需管理多模型、多轮次的复杂实验流程，并精确记录每次交互的令牌消耗与经济成本；最后，答案解析与正确性判定环节也面临挑战，因为简单的字符串比对可能导致误判，需要开发更为精细的评估解析器。

常用场景

经典使用场景

在数学推理与大型语言模型评估领域，MathArena/apex_2025_outputs数据集为研究者提供了一个标准化的基准测试平台。该数据集收录了多种先进模型在2025年数学竞赛题目上的详细输出记录，包括完整的对话历史、解析答案及正确性标注。经典使用场景集中于系统性地对比不同模型在复杂数学问题求解上的性能，通过控制变量分析模型配置、提示工程等因素对最终答案准确率的影响，从而深入理解模型在符号推理与多步计算方面的能力边界。

实际应用

在实际应用层面，该数据集为人工智能产品的研发与优化提供了关键参考。开发团队可利用其评估不同模型在数学辅导、自动解题或科学计算助手等场景下的潜在表现，通过分析模型在竞赛级难题上的错误模式，针对性改进模型的推理链生成或符号处理模块。此外，数据集包含的令牌消耗与成本数据，也为企业部署模型时的经济效益分析与资源预算提供了宝贵的实证数据支撑。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于数学推理评估与模型改进的经典研究工作。例如，基于其构建的基准测试被广泛用于验证新型推理架构或微调策略的有效性，相关论文常引用该数据集以证明其方法在未见过竞赛题上的优越性。同时，数据集中丰富的错误案例也催生了针对数学特定错误的诊断工具与纠正机制的研究，促进了领域内对模型失败模式的系统性理解与修复技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集