five

MathArena/brokenarxiv-0326

收藏
Hugging Face2026-04-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/MathArena/brokenarxiv-0326
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: problem_idx dtype: int64 - name: points dtype: int64 - name: grading_scheme dtype: string - name: problem dtype: string splits: - name: train num_bytes: 25515 num_examples: 56 download_size: 17348 dataset_size: 25515 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-4.0 language: - en pretty_name: BrokenArXiv March 2026 size_categories: - n<1K --- ### Homepage and repository - **Homepage:** [https://matharena.ai/](https://matharena.ai/) - **Repository:** [https://github.com/eth-sri/matharena](https://github.com/eth-sri/matharena) ### Dataset Summary This dataset contains the questions from BrokenArXiv March 2026 used for the MathArena Leaderboard ### Data Fields Below one can find the description of each field in the dataset. - `problem_idx` (int): Index of the problem in the competition - `problem` (str): Full problem statement - `answer` (str): Ground-truth answer to the question - `problem_type` (sequence[string]): Type of the problem, either "Combinatorics", "Number Theory", "Algebra", "Geometry". One problem can have several types. ### Licensing Information This dataset is licensed under the Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Please abide by the license when using the provided data. ### Citation Information ``` @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, } ```
提供机构:
MathArena
搜集汇总
数据集介绍
main_image_url
构建方式
在数学竞赛评估领域,BrokenArXiv-0326数据集源自2026年3月的BrokenArXiv竞赛题目,由ETH Zurich的SRI实验室系统整理而成。其构建过程严格遵循竞赛原始设置,每道题目均包含完整的索引、问题陈述、标准答案及分类标签,确保了数据的真实性与完整性。数据以结构化格式存储,便于机器学习模型直接加载与处理,为数学推理能力评估提供了高质量基准。
使用方法
用户可通过HuggingFace平台直接下载数据集,或访问其GitHub仓库获取最新版本。数据以标准分割格式提供,适用于训练与评估数学推理模型,尤其适合用于大语言模型的零样本或小样本测试。在使用时,建议结合问题类型字段进行领域特异性分析,并遵循引用规范以尊重原作者贡献,从而推动数学人工智能研究的透明发展。
背景与挑战
背景概述
BrokenArXiv-0326数据集由苏黎世联邦理工学院SRI实验室的研究团队于2025年创建,旨在评估大型语言模型在未经污染的数学竞赛问题上的表现。该数据集源自2026年3月的BrokenArXiv数学竞赛,涵盖了组合数学、数论、代数和几何等多个数学分支,为研究社区提供了一个纯净的基准测试平台。其核心研究问题聚焦于提升模型在复杂数学推理任务中的泛化能力与鲁棒性,对推动人工智能在数学教育及自动解题领域的发展具有重要影响力。
当前挑战
该数据集致力于解决数学问题求解领域的挑战,特别是模型在面对多类型、高难度竞赛题目时的准确性与逻辑一致性。构建过程中的挑战包括确保问题来源的纯净性,避免数据污染影响评估结果,以及精确标注问题类型与标准答案,以维持数据集的科学严谨性。此外,竞赛题目的多样性与抽象性要求细致的分类与验证流程,增加了数据收集与整理的复杂性。
常用场景
经典使用场景
在数学推理与大型语言模型评估领域,BrokenArXiv-0326数据集作为一项精心设计的数学竞赛基准,其经典使用场景聚焦于评估模型在组合数学、数论、代数与几何等核心数学分支上的推理能力。研究者通常利用该数据集对先进语言模型进行系统性测试,通过模型对复杂数学问题的解答表现,深入分析其在多步骤逻辑推导、符号运算及抽象概念理解方面的性能边界,从而推动数学智能的发展。
解决学术问题
该数据集有效应对了当前人工智能研究中模型数学能力评估数据易受污染的关键挑战。通过提供一套未在公开训练数据中泄露的、高质量且类型多样的数学问题,它使研究者能够进行纯净、可靠的性能评测,解决了评估结果因数据泄露而失真的学术困境。这为客观衡量模型真实数学推理水平建立了坚实基础,对促进评估方法的严谨性与可比性具有深远意义。
实际应用
在实际应用层面,BrokenArXiv-0326数据集主要服务于构建和优化面向数学教育的智能辅导系统、自动化解题工具以及学术研究辅助平台。基于此数据集开发的模型能够处理从中学到大学竞赛级别的数学问题,为学习者提供即时、精准的解题反馈与步骤指导,同时也可辅助研究人员快速验证数学猜想或生成特定类型的习题,提升了数学学习与研究的效率与智能化水平。
数据集最近研究
最新研究方向
在数学推理与大型语言模型评估领域,BrokenArXiv-0326数据集作为MathArena平台的核心组成部分,正推动着对模型在未受污染数学竞赛问题上的性能研究。该数据集聚焦于组合数学、数论、代数与几何等高级数学分支,其前沿探索集中在开发能够处理多类型、复杂推理链的模型架构,以应对竞赛级问题的严谨性。相关热点事件包括利用该数据集进行的大规模基准测试,旨在揭示模型在真实数学场景中的泛化能力与逻辑缺陷,这对于提升人工智能的符号推理水平具有深远意义,并为教育技术与自动化解题系统的设计提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作