imo_2025_outputs

Hugging Face2025-08-03 更新2025-08-04 收录

下载链接：

https://huggingface.co/datasets/MathArena/imo_2025_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用MathArena GitHub仓库生成的2025年美国数学奥林匹克（USAMO）问题的模型答案。数据集中的每个问题都有多个模型尝试的回答，并包含了两位评委的评分细节和错误分类。

创建时间：

2025-07-21

原始信息汇总

数据集概述：Model Outputs USAMO 2025

数据集基本信息

名称：Model Outputs USAMO 2025
许可证：CC BY-NC-SA 4.0
语言：英语 (en)
大小：1,692,379 字节
下载大小：549,919 字节
样本数量：144
类别：n<1K

数据字段

problem_idx (string)：问题在竞赛中的索引
problem (string)：完整的问题描述
model_name (string)：模型名称
model_config (string)：模型配置文件的路径
idx_answer (int64)：模型回答问题的尝试次数索引
user_message (string)：提供给模型的用户消息
answer (string)：模型的回答
input_tokens (int64)：输入令牌数
output_tokens (int64)：输出令牌数
cost (float64)：总成本
input_cost_per_tokens (float64)：每百万输入令牌的成本
output_cost_per_tokens (float64)：每百万输出令牌的成本
points_judge_1 (int64)：第一位评委给出的分数
grading_details_judge_1 (list)：第一位评委的评分细节
- desc (string)：评委给出分数的理由描述
- grading_scheme_desc (string)：评分方案描述
- max_points (int64)：该部分最高分数
- points (int64)：该部分得分
- title (string)：评分部分的标题
error_judge_1 (null)：第一位评委的错误类别
max_points_judge_1 (int64)：该问题的最高分数（始终为7）
points_judge_2 (float64)：第二位评委给出的分数
grading_details_judge_2 (list)：第二位评委的评分细节
- desc (string)：评委给出分数的理由描述
- grading_scheme_desc (string)：评分方案描述
- max_points (int64)：该部分最高分数
- points (int64)：该部分得分
- title (string)：评分部分的标题
error_judge_2 (float64)：第二位评委的错误类别
max_points_judge_2 (float64)：该问题的最高分数（始终为7）

数据来源

原始问题：来自AIME I 2025竞赛
处理：问题被提取、转换为LaTeX格式并验证

引用信息

bibtex @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, }

相关链接

主页：https://matharena.ai/
代码库：https://github.com/eth-sri/matharena

搜集汇总

数据集介绍

构建方式

在数学竞赛领域，imo_2025_outputs数据集的构建采用了系统化的方法。该数据集源自USAMO 2025竞赛题目，通过MathArena平台收集了多种模型对竞赛题目的解答。数据采集过程包括将原始题目转换为LaTeX格式，并经过严格验证确保准确性。每个问题由不同模型进行多次解答尝试，同时记录了详细的评分信息，包括两位评委的打分细节、错误分类以及各项评分标准的具体说明。

特点

该数据集展现了数学竞赛自动评分系统的典型特征。包含144个示例，每个示例都记录了模型名称、配置参数、输入输出token数量及计算成本等元数据。独特的双评委评分系统提供了多维度的评估视角，评分细则详细到证明过程的每个环节，最大分值统一设定为7分。数据集还特别标注了错误类型和计算成本指标，为研究模型的经济性提供了参考依据。

使用方法

该数据集适用于数学自动推理和大型语言模型评估研究。研究人员可通过分析不同模型在竞赛题目上的表现，比较其解题能力和计算效率。数据集中的评分细则可用于训练自动评分模型，而详细的错误分类有助于改进模型的数学推理能力。使用时应遵循CC BY-NC-SA 4.0许可协议，并引用提供的文献信息。数据加载可直接通过HuggingFace接口完成，各字段的明确定义便于进行针对性的分析。

背景与挑战

背景概述

imo_2025_outputs数据集由苏黎世联邦理工学院SRI实验室于2025年推出，旨在评估大型语言模型在未经污染的数学竞赛问题上的表现。该数据集基于美国数学奥林匹克竞赛(USAMO)2025年的试题，通过MathArena平台收集了多种模型对竞赛问题的解答。核心研究聚焦于探索语言模型解决高阶数学问题的能力边界，为数学推理领域的模型评估提供了标准化基准。该工作以严谨的学术态度填补了数学竞赛场景下AI系统评估的空白，对推动形式推理与符号计算研究具有显著意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，数学竞赛问题通常需要复杂的多步推理和严格的逻辑推导，这对语言模型的抽象思维和符号操作能力提出极高要求；在构建过程中，需确保试题的原始性和评估标准的客观性，包括设计双盲评分机制、处理模型输出的非确定性，以及建立兼顾严格性和可解释性的分级体系。此外，保持竞赛问题的时效性同时避免数据污染，也是构建过程中的关键难点。

常用场景

经典使用场景

在数学竞赛领域，imo_2025_outputs数据集为研究大型语言模型（LLMs）在解决高难度数学问题中的表现提供了宝贵资源。该数据集收录了多个模型对USAMO 2025竞赛题目的解答，包含详细的评分细则和错误分析，使研究者能够系统评估模型在数学推理、逻辑严谨性和创造性解题方面的能力。

解决学术问题

该数据集有效解决了人工智能领域关于LLMs数学推理能力评估的若干关键问题。通过标准化的竞赛题目和双评委评分机制，研究者能够量化分析不同模型在数学问题求解中的准确性和鲁棒性。特别地，数据集中的详细评分细则为理解模型在特定数学概念掌握程度上的差异提供了微观视角，填补了现有评估体系在复杂认知任务上的空白。

衍生相关工作

该数据集已催生多项重要研究，包括《基于多评委机制的数学推理评估框架》等论文，这些工作扩展了AI数学能力评估的维度。ETH Zurich团队后续开发的MathArena平台进一步丰富了竞赛题目的覆盖范围，而衍生出的细粒度错误分类体系已成为该领域的新标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集