MathArena/brokenarxiv-0226

Name: MathArena/brokenarxiv-0226
Creator: MathArena
Published: 2026-04-03 17:54:15
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/brokenarxiv-0226

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: problem_idx dtype: int64 - name: points dtype: int64 - name: grading_scheme dtype: string - name: problem dtype: string splits: - name: train num_bytes: 15644 num_examples: 31 download_size: 12801 dataset_size: 15644 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-4.0 language: - en pretty_name: BrokenArXiv February 2026 size_categories: - n<1K --- ### Homepage and repository - **Homepage:** [https://matharena.ai/](https://matharena.ai/) - **Repository:** [https://github.com/eth-sri/matharena](https://github.com/eth-sri/matharena) ### Dataset Summary This dataset contains the questions from BrokenArXiv February 2026 used for the MathArena Leaderboard ### Data Fields Below one can find the description of each field in the dataset. - `problem_idx` (int): Index of the problem in the competition - `problem` (str): Full problem statement - `answer` (str): Ground-truth answer to the question - `problem_type` (sequence[string]): Type of the problem, either "Combinatorics", "Number Theory", "Algebra", "Geometry". One problem can have several types. ### Licensing Information This dataset is licensed under the Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Please abide by the license when using the provided data. ### Citation Information ``` @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, } ```

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，BrokenArXiv-0226数据集源自2026年2月的BrokenArXiv竞赛，专为MathArena排行榜设计。其构建过程遵循严格的学术标准，通过系统收集竞赛中的数学问题，确保每个条目包含完整的问题陈述、标准答案及问题类型标注。数据以结构化格式整理，涵盖组合数学、数论、代数和几何等多个数学分支，体现了对原始竞赛材料的忠实再现与规范化处理。

特点

该数据集的核心特点在于其专注于未受污染的数学竞赛问题，旨在评估大型语言模型在真实数学推理任务上的表现。每个数据条目均附带详细的问题索引、得分点、评分方案和问题类型标签，支持多标签分类，允许一个问题归属于多个数学领域。数据集规模适中，包含31个训练样本，以英文呈现，并采用CC BY-SA 4.0许可，促进了开放科学环境下的可重复研究与公平比较。

使用方法

使用BrokenArXiv-0226数据集时，研究人员可将其应用于数学问题求解模型的训练与评估，特别是在零样本或少样本学习场景中。数据集可直接从HuggingFace平台下载，通过标准数据加载工具访问其结构化字段，如问题陈述和真实答案，以进行模型性能测试。建议用户遵循引用规范，在相关研究中注明来源，并遵守许可条款，确保数据使用的合法性与学术诚信。

背景与挑战

背景概述

在人工智能领域，数学推理能力被视为衡量大型语言模型智能水平的关键指标之一。MathArena项目由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建，旨在通过构建未受污染的数学竞赛数据集，系统评估模型在复杂数学问题上的表现。该数据集聚焦于组合数学、数论、代数与几何等核心数学分支，其设计源于对现有基准测试可能存在的数据泄露问题的深刻反思，为推进模型在严谨数学逻辑与创造性解题方面的研究提供了高质量、结构化的评估平台。

当前挑战

该数据集致力于解决数学问题求解领域的核心挑战，即如何准确评估大型语言模型在真实、未见过的高难度数学竞赛题目上的泛化与推理能力。构建过程中的主要困难在于确保题目的原创性与隔离性，防止训练数据污染，同时需精确标注问题类型与标准答案，维持学科分类的严谨性与一致性。这些挑战要求数据集设计兼顾学术深度与工程可靠性，以支撑稳健的模型评估。

常用场景

经典使用场景

在数学竞赛与大型语言模型评估领域，BrokenArXiv-0226数据集作为MathArena排行榜的核心组成部分，其经典使用场景聚焦于评估模型在未受污染数学问题上的推理能力。该数据集涵盖了组合数学、数论、代数与几何等多类竞赛题目，研究者通过构建基准测试环境，系统性地衡量模型在复杂数学问题求解中的表现，从而推动模型在数学推理任务上的进步。

衍生相关工作

围绕该数据集衍生的经典工作包括MathArena评估框架的构建，该框架系统整合了多个未污染数学竞赛数据集，为大型语言模型的数学能力提供了标准化测试平台。相关研究进一步探索了模型在跨领域数学问题上的迁移学习、多步推理优化等方向，推动了数学人工智能领域的算法创新与理论发展。

数据集最近研究