MathArena/brokenarxiv-0226
收藏Hugging Face2026-04-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/MathArena/brokenarxiv-0226
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: problem_idx
dtype: int64
- name: points
dtype: int64
- name: grading_scheme
dtype: string
- name: problem
dtype: string
splits:
- name: train
num_bytes: 15644
num_examples: 31
download_size: 12801
dataset_size: 15644
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: cc-by-sa-4.0
language:
- en
pretty_name: BrokenArXiv February 2026
size_categories:
- n<1K
---
### Homepage and repository
- **Homepage:** [https://matharena.ai/](https://matharena.ai/)
- **Repository:** [https://github.com/eth-sri/matharena](https://github.com/eth-sri/matharena)
### Dataset Summary
This dataset contains the questions from BrokenArXiv February 2026 used for the MathArena Leaderboard
### Data Fields
Below one can find the description of each field in the dataset.
- `problem_idx` (int): Index of the problem in the competition
- `problem` (str): Full problem statement
- `answer` (str): Ground-truth answer to the question
- `problem_type` (sequence[string]): Type of the problem, either "Combinatorics", "Number Theory", "Algebra", "Geometry". One problem can have several types.
### Licensing Information
This dataset is licensed under the Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Please abide by the license when using the provided data.
### Citation Information
```
@misc{balunovic_srimatharena_2025,
title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions},
author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev},
copyright = {MIT},
url = {https://matharena.ai/},
publisher = {SRI Lab, ETH Zurich},
month = feb,
year = {2025},
}
```
提供机构:
MathArena
搜集汇总
数据集介绍

构建方式
在数学竞赛评估领域,BrokenArXiv-0226数据集源自2026年2月的BrokenArXiv竞赛,专为MathArena排行榜设计。其构建过程遵循严格的学术标准,通过系统收集竞赛中的数学问题,确保每个条目包含完整的问题陈述、标准答案及问题类型标注。数据以结构化格式整理,涵盖组合数学、数论、代数和几何等多个数学分支,体现了对原始竞赛材料的忠实再现与规范化处理。
特点
该数据集的核心特点在于其专注于未受污染的数学竞赛问题,旨在评估大型语言模型在真实数学推理任务上的表现。每个数据条目均附带详细的问题索引、得分点、评分方案和问题类型标签,支持多标签分类,允许一个问题归属于多个数学领域。数据集规模适中,包含31个训练样本,以英文呈现,并采用CC BY-SA 4.0许可,促进了开放科学环境下的可重复研究与公平比较。
使用方法
使用BrokenArXiv-0226数据集时,研究人员可将其应用于数学问题求解模型的训练与评估,特别是在零样本或少样本学习场景中。数据集可直接从HuggingFace平台下载,通过标准数据加载工具访问其结构化字段,如问题陈述和真实答案,以进行模型性能测试。建议用户遵循引用规范,在相关研究中注明来源,并遵守许可条款,确保数据使用的合法性与学术诚信。
背景与挑战
背景概述
在人工智能领域,数学推理能力被视为衡量大型语言模型智能水平的关键指标之一。MathArena项目由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建,旨在通过构建未受污染的数学竞赛数据集,系统评估模型在复杂数学问题上的表现。该数据集聚焦于组合数学、数论、代数与几何等核心数学分支,其设计源于对现有基准测试可能存在的数据泄露问题的深刻反思,为推进模型在严谨数学逻辑与创造性解题方面的研究提供了高质量、结构化的评估平台。
当前挑战
该数据集致力于解决数学问题求解领域的核心挑战,即如何准确评估大型语言模型在真实、未见过的高难度数学竞赛题目上的泛化与推理能力。构建过程中的主要困难在于确保题目的原创性与隔离性,防止训练数据污染,同时需精确标注问题类型与标准答案,维持学科分类的严谨性与一致性。这些挑战要求数据集设计兼顾学术深度与工程可靠性,以支撑稳健的模型评估。
常用场景
经典使用场景
在数学竞赛与大型语言模型评估领域,BrokenArXiv-0226数据集作为MathArena排行榜的核心组成部分,其经典使用场景聚焦于评估模型在未受污染数学问题上的推理能力。该数据集涵盖了组合数学、数论、代数与几何等多类竞赛题目,研究者通过构建基准测试环境,系统性地衡量模型在复杂数学问题求解中的表现,从而推动模型在数学推理任务上的进步。
衍生相关工作
围绕该数据集衍生的经典工作包括MathArena评估框架的构建,该框架系统整合了多个未污染数学竞赛数据集,为大型语言模型的数学能力提供了标准化测试平台。相关研究进一步探索了模型在跨领域数学问题上的迁移学习、多步推理优化等方向,推动了数学人工智能领域的算法创新与理论发展。
数据集最近研究
最新研究方向
在数学推理与大型语言模型评估领域,BrokenArXiv-0226数据集作为MathArena平台的核心组成部分,正推动着前沿研究向无污染数学竞赛评估方向深化。该数据集聚焦于组合数学、数论、代数与几何等纯数学问题,为研究者提供了检验模型在复杂、新颖题目上泛化能力的基准。近期热点集中于利用此类数据集探索语言模型在零样本或少样本设置下的数学推理极限,同时结合检索增强生成与符号计算技术,以提升模型解决开放域数学问题的准确性与可解释性。这一研究方向不仅促进了人工智能与数学教育的交叉融合,也为构建更可靠、透明的自动化推理系统奠定了数据基础,具有重要的学术与应用价值。
以上内容由遇见数据集搜集并总结生成



