brumo_2025

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/MathArena/brumo_2025

下载链接

链接失效反馈

官方服务：

资源简介：

BRUMO 2025数据集包含了用于MathArena Leaderboard的数学竞赛问题，其中包括问题的完整描述、问题的答案以及问题在竞赛中的索引。

创建时间：

2025-05-13

原始信息汇总

BRUMO 2025 数据集概述

数据集基本信息

名称: BRUMO 2025
语言: 英语 (en)
大小类别: n<1K
许可证: Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
下载大小: 9586 bytes
数据集大小: 10049 bytes

数据集结构

特征:
- problem_idx (int64): 问题在比赛中的索引
- problem (string): 完整的问题描述
- answer (string): 问题的真实答案
- problem_type (sequence of string): 问题类型
划分:
- train: 包含30个样本，大小为10049 bytes

数据来源

原始数据: 来自BRUMO 2025比赛的问题
处理: 问题被提取、转换为LaTeX格式并经过验证

引用信息

bibtex @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, }

搜集汇总

数据集介绍

构建方式

BRUMO 2025数据集源自国际数学竞赛平台MathArena，其构建过程体现了严谨的学术规范。原始竞赛题目经过专业团队的提取与转换，采用LaTeX格式进行标准化处理，确保数学符号和公式的精确呈现。每个问题均经过人工验证，并标注唯一索引编号，形成包含问题陈述、标准答案及问题类型的结构化数据。数据采集过程严格遵循竞赛官方规则，最终生成包含30个高质量样本的训练集。

特点

该数据集以数学竞赛题目为核心，展现出鲜明的领域特性。每个样本包含完整的问题描述、标准答案及问题类型标注，支持多维度分析。数据采用轻量级设计，总容量仅约10KB，便于快速加载和处理。问题涵盖多种数学分支，题型设计兼顾基础与挑战性，为大型语言模型在数学推理能力评估方面提供可靠基准。LaTeX格式的问题陈述保持了数学表达的专业性与准确性。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，默认配置包含训练集拆分。使用时应遵守CC BY-NC-SA 4.0许可协议，主要适用于非商业学术研究。典型应用场景包括：评估语言模型的数学问题解决能力、开发自动解题系统或进行教育技术研究。数据字段设计清晰，problem_idx字段支持样本追踪，problem和answer字段构成标准的问答对，可直接用于模型训练与测试。

背景与挑战

背景概述

BRUMO 2025数据集由苏黎世联邦理工学院SRI实验室于2025年推出，旨在为数学竞赛领域提供高质量的基准测试资源。该数据集源自BRUMO 2025数学竞赛的题目，经过LaTeX格式转换与严格验证，包含题目索引、完整题干及标准答案等关键字段。作为MathArena项目的重要组成部分，该数据集为大型语言模型在数学推理能力评估方面提供了无污染的测试环境，推动了人工智能在复杂数学问题求解领域的研究进展。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，数学竞赛题目往往包含多步骤推理与抽象概念理解，如何准确评估模型对复杂数学逻辑的掌握程度成为关键难题；在构建过程中，题目需要从原始竞赛中精确提取并转换为标准化格式，同时确保答案的绝对正确性，这对数据清洗与验证流程提出了极高要求。此外，保持数据集的时效性与竞赛题目的新颖性之间的平衡也是持续维护的挑战。

常用场景

经典使用场景

在数学竞赛和自动解题系统的研究中，brumo_2025数据集因其高质量的问题和标准答案而成为评估大型语言模型（LLMs）数学推理能力的基准工具。该数据集常用于测试模型在解决复杂数学问题时的准确性和逻辑推理能力，尤其在模拟真实竞赛环境下的表现。

衍生相关工作

围绕brumo_2025数据集，研究者们开展了一系列经典工作，包括基于该数据集开发的MathArena评估框架。这些工作不仅扩展了数学自动推理的研究边界，还为后续研究提供了丰富的实验数据和比较基准，推动了该领域的快速发展。

数据集最近研究