MathArena/brokenarxiv-0326

Name: MathArena/brokenarxiv-0326
Creator: MathArena
Published: 2026-04-03 17:54:00
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/brokenarxiv-0326

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: problem_idx dtype: int64 - name: points dtype: int64 - name: grading_scheme dtype: string - name: problem dtype: string splits: - name: train num_bytes: 25515 num_examples: 56 download_size: 17348 dataset_size: 25515 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-4.0 language: - en pretty_name: BrokenArXiv March 2026 size_categories: - n<1K --- ### Homepage and repository - **Homepage:** [https://matharena.ai/](https://matharena.ai/) - **Repository:** [https://github.com/eth-sri/matharena](https://github.com/eth-sri/matharena) ### Dataset Summary This dataset contains the questions from BrokenArXiv March 2026 used for the MathArena Leaderboard ### Data Fields Below one can find the description of each field in the dataset. - `problem_idx` (int): Index of the problem in the competition - `problem` (str): Full problem statement - `answer` (str): Ground-truth answer to the question - `problem_type` (sequence[string]): Type of the problem, either "Combinatorics", "Number Theory", "Algebra", "Geometry". One problem can have several types. ### Licensing Information This dataset is licensed under the Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Please abide by the license when using the provided data. ### Citation Information ``` @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, } ```

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，BrokenArXiv-0326数据集源自2026年3月的BrokenArXiv竞赛题目，由ETH Zurich的SRI实验室系统整理而成。其构建过程严格遵循竞赛原始设置，每道题目均包含完整的索引、问题陈述、标准答案及分类标签，确保了数据的真实性与完整性。数据以结构化格式存储，便于机器学习模型直接加载与处理，为数学推理能力评估提供了高质量基准。

使用方法

用户可通过HuggingFace平台直接下载数据集，或访问其GitHub仓库获取最新版本。数据以标准分割格式提供，适用于训练与评估数学推理模型，尤其适合用于大语言模型的零样本或小样本测试。在使用时，建议结合问题类型字段进行领域特异性分析，并遵循引用规范以尊重原作者贡献，从而推动数学人工智能研究的透明发展。

背景与挑战

背景概述

BrokenArXiv-0326数据集由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建，旨在评估大型语言模型在未经污染的数学竞赛问题上的表现。该数据集源自2026年3月的BrokenArXiv数学竞赛，涵盖了组合数学、数论、代数和几何等多个数学分支，为研究社区提供了一个纯净的基准测试平台。其核心研究问题聚焦于提升模型在复杂数学推理任务中的泛化能力与鲁棒性，对推动人工智能在数学教育及自动解题领域的发展具有重要影响力。

当前挑战

该数据集致力于解决数学问题求解领域的挑战，特别是模型在面对多类型、高难度竞赛题目时的准确性与逻辑一致性。构建过程中的挑战包括确保问题来源的纯净性，避免数据污染影响评估结果，以及精确标注问题类型与标准答案，以维持数据集的科学严谨性。此外，竞赛题目的多样性与抽象性要求细致的分类与验证流程，增加了数据收集与整理的复杂性。

常用场景

经典使用场景

在数学推理与大型语言模型评估领域，BrokenArXiv-0326数据集作为一项精心设计的数学竞赛基准，其经典使用场景聚焦于评估模型在组合数学、数论、代数与几何等核心数学分支上的推理能力。研究者通常利用该数据集对先进语言模型进行系统性测试，通过模型对复杂数学问题的解答表现，深入分析其在多步骤逻辑推导、符号运算及抽象概念理解方面的性能边界，从而推动数学智能的发展。

解决学术问题

该数据集有效应对了当前人工智能研究中模型数学能力评估数据易受污染的关键挑战。通过提供一套未在公开训练数据中泄露的、高质量且类型多样的数学问题，它使研究者能够进行纯净、可靠的性能评测，解决了评估结果因数据泄露而失真的学术困境。这为客观衡量模型真实数学推理水平建立了坚实基础，对促进评估方法的严谨性与可比性具有深远意义。

实际应用

在实际应用层面，BrokenArXiv-0326数据集主要服务于构建和优化面向数学教育的智能辅导系统、自动化解题工具以及学术研究辅助平台。基于此数据集开发的模型能够处理从中学到大学竞赛级别的数学问题，为学习者提供即时、精准的解题反馈与步骤指导，同时也可辅助研究人员快速验证数学猜想或生成特定类型的习题，提升了数学学习与研究的效率与智能化水平。

数据集最近研究