MathArena/brumo_2025_outputs
收藏Hugging Face2026-02-04 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/MathArena/brumo_2025_outputs
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集包含了BRUMO 2025竞赛问题的模型输出答案。每个问题都有多个模型的答案尝试,数据集记录了问题索引、问题陈述、模型名称、模型配置、用户消息、模型给出的答案、经过MathArena解析器解析的答案、答案的正确性、输入输出令牌数、答案的成本以及每百万输入输出令牌的成本。
This dataset contains model outputs for questions from the BRUMO 2025 competition. Each question has multiple attempts of answers from different models, including information such as problem index, problem statement, model name, model configuration, user message, models answer, parsed answer by the MathArena parser, correctness of the answer, number of input and output tokens, total cost of the answer, and cost per one million input and output tokens.
提供机构:
MathArena
搜集汇总
数据集介绍

构建方式
在数学竞赛评估领域,该数据集依托BRUMO 2025竞赛的原始题目构建而成。研究者首先从竞赛中提取问题,将其转换为LaTeX格式并进行严格验证,确保问题表述的准确性与一致性。随后,通过MathArena开源框架,调用多种大型语言模型对每道题目进行多次解答尝试,系统记录了完整的对话交互过程、模型配置细节及资源消耗指标。最终,数据集整合了模型输出、解析后的答案以及基于官方解析器判定的正确性标签,形成了结构化的评估记录。
特点
本数据集的核心特征在于其专注于数学竞赛场景下模型输出的系统性收集与标注。它不仅包含完整的题目陈述、模型原始回答及解析后答案,还详尽记录了每次交互的令牌消耗与计算成本,为模型效率分析提供了量化基础。独特的多次尝试索引设计允许研究者考察模型输出的稳定性与一致性,而基于专用解析器的正确性判定则避免了简单字符串比对可能引入的误判,提升了评估结果的可靠性。这些特征共同支撑了对模型数学推理能力的多维度深入分析。
使用方法
该数据集主要服务于大型语言模型在数学推理领域的性能评估与比较研究。使用者可依据模型名称、配置及问题索引筛选特定子集,分析不同模型或同一模型不同参数设置下的答题准确率与成本效益。通过对比模型原始答案、解析答案与标准答案,并结合正确性标签,研究者能够深入探究模型错误模式与解析器行为。此外,令牌数与成本字段支持进行模型效率与经济性评估,为优化模型部署提供数据依据。数据集亦可作为基准,用于训练或微调数学专用模型,或开发更稳健的答案解析与评估方法。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,大型语言模型(LLM)的数学问题解决能力评估一直是研究热点。MathArena/brumo_2025_outputs数据集由苏黎世联邦理工学院SRI实验室的Mislav Balunović等研究人员于2025年构建,旨在系统评估LLM在未受污染的数学竞赛问题上的表现。该数据集基于BRUMO 2025竞赛题目,通过标准化流程生成多模型、多轮次的答案输出,为核心研究问题——即LLM在复杂数学推理任务中的泛化能力与可靠性——提供了实证基础。其贡献在于为社区提供了一个可重复、细粒度的基准,推动了数学智能评估向更严谨、透明方向发展。
当前挑战
该数据集旨在应对数学问题求解中LLM评估的核心挑战:如何准确衡量模型在真实、高难度竞赛环境下的推理能力,避免数据污染导致的性能虚高。构建过程中的挑战包括:一是原始竞赛问题的标准化转换与验证,需确保题目表述的精确性与格式统一;二是多模型、多轮次答案生成的规模化执行与成本控制,涉及计算资源与API调用的高效管理;三是答案解析与正确性判定的自动化,需设计鲁棒的解析器以处理模型输出的多样性与歧义性,避免因格式差异产生误判。
常用场景
经典使用场景
在数学推理与大型语言模型评估领域,MathArena/brumo_2025_outputs数据集为研究者提供了一个标准化的基准测试平台。该数据集收录了多个先进模型针对BRUMO 2025数学竞赛题目的详细解答过程与评估结果,其经典使用场景在于系统性地对比不同模型在复杂数学问题求解上的性能。通过分析模型生成的完整对话链、解析后的答案以及正确性标签,研究者能够深入探究模型在遵循指令、多步推理以及最终答案生成等方面的能力差异,为模型能力的量化比较提供了坚实的数据基础。
解决学术问题
该数据集有效应对了当前大语言模型评估中存在的关键学术挑战,特别是模型在未经污染的、高难度数学竞赛问题上的真实泛化能力评估问题。它通过提供纯净的、源自权威竞赛的题目及标准答案,解决了评估环境可能存在的数据泄露与过拟合风险,确保了评估结果的公正性与可靠性。其意义在于为社区建立了一个严谨的评估范式,推动了对模型数学推理机制、错误模式以及成本效益分析的深入研究,对提升模型评估的科学性与可复现性产生了深远影响。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦于大语言模型数学能力评估与提升的经典研究工作。例如,基于此类竞赛输出数据的分析,研究者们深入探讨了思维链提示、程序辅助生成等策略对模型表现的影响,并催生了旨在改进模型符号计算与严格推理能力的新方法。这些工作不仅深化了对模型数学认知边界的理解,也推动了更高效的微调策略与模型架构创新,形成了从基准测试到方法改进的良性研究循环。
以上内容由遇见数据集搜集并总结生成



