MathArena/smt_2025_outputs

Name: MathArena/smt_2025_outputs
Creator: MathArena
Published: 2026-05-05 08:25:47
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/smt_2025_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用MathArena GitHub仓库生成的SMT 2025问题的模型答案。数据集包含多个字段，如问题索引、问题陈述、模型名称、模型配置、答案索引、完整对话、用户提示、模型响应、输入/输出令牌数、成本估计等。原始问题来自SMT 2025竞赛，经过提取、转换为LaTeX并验证。

This dataset contains model answers to the questions from SMT 2025 generated using the MathArena GitHub repository. The dataset includes fields such as problem index, problem statement, model name, model configuration, answer index, full conversation, user prompt, model response, input/output tokens, cost estimation, etc. The original questions were sourced from the SMT 2025 competition, extracted, converted to LaTeX and verified.

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

该数据集源自2025年国际数学竞赛SMT的原始试题，经由MathArena平台系统化处理而成。研究人员首先将竞赛题目提取并转换为LaTeX格式，经过严格验证确保题目准确性后，利用MathArena提供的开源评估框架，向多款大语言模型发送标准化查询。每个问题可被模型多次尝试回答，形成完整的对话记录，同时自动记录模型的输入输出Token数量、API调用成本等元数据。最终通过MathArena解析器从模型响应中提取答案，并与标准答案进行比对，判定回答正确性，构建出一个结构化的模型输出评测数据集。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库加载数据，直接访问train分区的全部10875个样本。每个样本中的'problem'字段存储了LaTeX格式的数学问题，而'answer'字段包含模型原始回复，'parsed_answer'字段则提供了自动化提取的答案。用户可利用'correct'字段快速筛选模型回答正确的样本进行深入分析，或根据'model_name'和'cost'字段比较不同模型在解决数学问题时的性能与成本差异。此外，数据集采用CC BY-NC-SA 4.0许可协议，适用于非商业性的学术研究场景。

背景与挑战

背景概述

在人工智能与数学推理的交叉领域，大规模语言模型（LLM）的数学能力评估始终是研究热点。2026年，由Jasper Dekoninck、Nikola Jovanović等来自ETH Zurich的研究团队构建了smt_2025_outputs数据集，该数据集依托MathArena平台，聚焦国际奥林匹克数学竞赛级别的问题——SMT 2025（Stanford Math Tournament）。数据集包含了10,875个模型对竞赛问题的响应实例，覆盖从问题索引、模型配置、令牌消耗到答案准确性的多维信息，旨在为LLM的数学推理能力提供细粒度、可复现的评测基准。作为MathArena评价体系的核心组成部分，该数据集填补了高水平竞赛数学自动化评估的空白，推动了数学推理领域从单一准确率向成本、效率与鲁棒性综合考量的范式转型。

当前挑战

该数据集所解决的领域问题核心在于：现有数学基准测试（如GSM8K、MATH）多聚焦于基础或中学水平，缺乏对高阶奥林匹克数学推理能力的有效评估，而smt_2025_outputs通过引入SMT竞赛的复杂证明与构造性问题，挑战了LLM在符号操作、多步逻辑链与创造性解题上的极限。构建过程中面临两大挑战：一是将原始竞赛题目从自然语言精确转化为LaTeX格式，并确保每个问题都对应唯一且无歧义的Gold Answer，这需要人工校验与领域专家介入；二是由于LLM生成的响应存在格式多样性与部分可解析性，团队开发了专用解析器对模型输出进行标准化提取，但非结构化的数学表达仍可能导致自动评分与人工评判的偏差，影响了数据集标签一致性的维护。

常用场景

经典使用场景

在人工智能与数学推理的交汇地带，smt_2025_outputs数据集为研究者提供了一个弥足珍贵的资源。该数据集收录了多种语言模型在国际数学竞赛SMT 2025试题上的完整作答记录，涵盖从问题陈述、模型响应到自动评分结果的完整链路。其最经典的使用场景在于评估和比较不同LLM（大语言模型）在复杂数学推理任务上的表现，尤其是在需要多步推导与符号操作的非平凡问题中。研究者可通过该数据集系统性地分析模型在推理链完整性、数值准确性以及形式化表达规范等方面的能力边界，从而精准定位当前LLM的数学推理短板。此外，由于数据集包含了每次推理的实验开销（如输入输出令牌数量与API成本），它也为衡量推理效率与性能之间的权衡关系提供了宝贵的研究窗口。

解决学术问题

该数据集核心回应了学术界长期面临的多重挑战：语言模型在数学问题上的真实性评测缺乏标准化、以往数据集多局限于简单题型而对高阶竞赛试题覆盖面不足、以及推理过程的成本可控性评估机制缺失。smt_2025_outputs通过提供源自真实国际竞赛的高质量题目与多种模型的完整应答轨迹，率先构建了一个兼具难度层次与评估透明度的基准平台。它允许研究者在中高级数学推理的语境中，细粒度地剖析模型在逻辑一致性与迭代求解策略上的表现，推动了从单纯追求正确率到兼顾推理过程质量与计算经济性的研究方向演进。该数据集的意义还在于为数学推理的去幻觉化评估树立了可复现的标尺，对推动LLM在精确推理场景中的可信应用具有深远影响。

实际应用

smt_2025_outputs数据集所蕴含的丰富模型输出记录，在诸多现实场景中展现出广阔的应用前景。教育科技领域可以借助其中的应答模式分析，构建能够辨识学生典型推理错误并提供针对性辅导的智能数学导师系统。在自动化竞赛解题与试题验证场景中，该数据集能够帮助开发者训练和校准模型，使其更好地应对高难度形式化推理任务。此外，对于API服务提供商而言，数据集中记录的各项成本指标（包括令牌消耗与费用估算）可以直接作为优化大模型部署效率的参考依据，支持在满足推理性能的前提下做出更经济的资源配置决策。研究者亦可从中抽取典型失败案例，用于开展针对性的模型微调或提示工程实验，从而迭代完善模型的数学逻辑能力。

数据集最近研究