five

brumo_2025

收藏
Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/MathArena/brumo_2025
下载链接
链接失效反馈
官方服务:
资源简介:
BRUMO 2025数据集包含了用于MathArena Leaderboard的数学竞赛问题,其中包括问题的完整描述、问题的答案以及问题在竞赛中的索引。
创建时间:
2025-05-13
原始信息汇总

BRUMO 2025 数据集概述

数据集基本信息

  • 名称: BRUMO 2025
  • 语言: 英语 (en)
  • 大小类别: n<1K
  • 许可证: Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
  • 下载大小: 9586 bytes
  • 数据集大小: 10049 bytes

数据集结构

  • 特征:
    • problem_idx (int64): 问题在比赛中的索引
    • problem (string): 完整的问题描述
    • answer (string): 问题的真实答案
    • problem_type (sequence of string): 问题类型
  • 划分:
    • train: 包含30个样本,大小为10049 bytes

数据来源

  • 原始数据: 来自BRUMO 2025比赛的问题
  • 处理: 问题被提取、转换为LaTeX格式并经过验证

相关链接

  • 主页: https://matharena.ai/
  • 代码仓库: https://github.com/eth-sri/matharena

引用信息

bibtex @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, }

搜集汇总
数据集介绍
main_image_url
构建方式
BRUMO 2025数据集源自国际数学竞赛平台MathArena,其构建过程体现了严谨的学术规范。原始竞赛题目经过专业团队的提取与转换,采用LaTeX格式进行标准化处理,确保数学符号和公式的精确呈现。每个问题均经过人工验证,并标注唯一索引编号,形成包含问题陈述、标准答案及问题类型的结构化数据。数据采集过程严格遵循竞赛官方规则,最终生成包含30个高质量样本的训练集。
特点
该数据集以数学竞赛题目为核心,展现出鲜明的领域特性。每个样本包含完整的问题描述、标准答案及问题类型标注,支持多维度分析。数据采用轻量级设计,总容量仅约10KB,便于快速加载和处理。问题涵盖多种数学分支,题型设计兼顾基础与挑战性,为大型语言模型在数学推理能力评估方面提供可靠基准。LaTeX格式的问题陈述保持了数学表达的专业性与准确性。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,默认配置包含训练集拆分。使用时应遵守CC BY-NC-SA 4.0许可协议,主要适用于非商业学术研究。典型应用场景包括:评估语言模型的数学问题解决能力、开发自动解题系统或进行教育技术研究。数据字段设计清晰,problem_idx字段支持样本追踪,problem和answer字段构成标准的问答对,可直接用于模型训练与测试。
背景与挑战
背景概述
BRUMO 2025数据集由苏黎世联邦理工学院SRI实验室于2025年推出,旨在为数学竞赛领域提供高质量的基准测试资源。该数据集源自BRUMO 2025数学竞赛的题目,经过LaTeX格式转换与严格验证,包含题目索引、完整题干及标准答案等关键字段。作为MathArena项目的重要组成部分,该数据集为大型语言模型在数学推理能力评估方面提供了无污染的测试环境,推动了人工智能在复杂数学问题求解领域的研究进展。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,数学竞赛题目往往包含多步骤推理与抽象概念理解,如何准确评估模型对复杂数学逻辑的掌握程度成为关键难题;在构建过程中,题目需要从原始竞赛中精确提取并转换为标准化格式,同时确保答案的绝对正确性,这对数据清洗与验证流程提出了极高要求。此外,保持数据集的时效性与竞赛题目的新颖性之间的平衡也是持续维护的挑战。
常用场景
经典使用场景
在数学竞赛和自动解题系统的研究中,brumo_2025数据集因其高质量的问题和标准答案而成为评估大型语言模型(LLMs)数学推理能力的基准工具。该数据集常用于测试模型在解决复杂数学问题时的准确性和逻辑推理能力,尤其在模拟真实竞赛环境下的表现。
衍生相关工作
围绕brumo_2025数据集,研究者们开展了一系列经典工作,包括基于该数据集开发的MathArena评估框架。这些工作不仅扩展了数学自动推理的研究边界,还为后续研究提供了丰富的实验数据和比较基准,推动了该领域的快速发展。
数据集最近研究
最新研究方向
随着大型语言模型在数学推理领域的广泛应用,BRUMO 2025数据集作为数学竞赛领域的基准测试工具,正逐渐成为研究热点。该数据集收录了BRUMO 2025竞赛中的数学问题,为评估语言模型的数学推理能力提供了高质量的测试平台。当前研究主要聚焦于如何利用该数据集提升模型在复杂数学问题上的表现,特别是在多步推理和符号计算方面的能力。与此同时,该数据集也被用于探索模型在未经训练的数学竞赛题目上的泛化能力,这一研究方向与当前人工智能领域追求模型鲁棒性和泛化性的趋势高度契合。BRUMO 2025数据集的出现,不仅填补了数学竞赛领域高质量评估数据的空白,也为比较不同语言模型的数学推理能力提供了标准化基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作