MathArena/arxivmath-1225

Name: MathArena/arxivmath-1225
Creator: MathArena
Published: 2026-04-03 17:53:19
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/MathArena/arxivmath-1225

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: problem_idx dtype: int64 - name: answer dtype: string - name: problem_type list: string - name: source dtype: float64 - name: problem dtype: string splits: - name: train num_bytes: 11546 num_examples: 17 download_size: 12584 dataset_size: 11546 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-4.0 language: - en pretty_name: ArXivMath December 2025 size_categories: - n<1K --- ### Homepage and repository - **Homepage:** [https://matharena.ai/](https://matharena.ai/) - **Repository:** [https://github.com/eth-sri/matharena](https://github.com/eth-sri/matharena) ### Dataset Summary This dataset contains the questions from ArXivMath December 2025 used for the MathArena Leaderboard ### Data Fields Below one can find the description of each field in the dataset. - `problem_idx` (int): Index of the problem in the competition - `problem` (str): Full problem statement - `answer` (str): Ground-truth answer to the question - `problem_type` (sequence[string]): Type of the problem, either "Combinatorics", "Number Theory", "Algebra", "Geometry". One problem can have several types. ### Licensing Information This dataset is licensed under the Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Please abide by the license when using the provided data. ### Citation Information ``` @misc{balunovic_srimatharena_2025, title = {MathArena: Evaluating LLMs on Uncontaminated Math Competitions}, author = {Mislav Balunović and Jasper Dekoninck and Ivo Petrov and Nikola Jovanović and Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {SRI Lab, ETH Zurich}, month = feb, year = {2025}, } ```

数据集信息：特征： - 名称：problem_idx，数据类型：int64 - 名称：answer，数据类型：字符串 - 名称：problem_type，数据类型：字符串序列 - 名称：source，数据类型：float64 - 名称：problem，数据类型：字符串拆分： - 名称：训练集（train），字节占用：11546，样本数量：17 下载大小：12584，数据集总大小：11546 配置项： - 配置名称：default（默认），数据文件： - 拆分：训练集，路径：data/train-* 许可证：CC BY-SA 4.0 语言：英语展示名称：ArXivMath 2025年12月版大小类别：样本数少于1000（n<1K） ### 主页与仓库 - **主页**：[https://matharena.ai/](https://matharena.ai/) - **仓库**：[https://github.com/eth-sri/matharena](https://github.com/eth-sri/matharena) ### 数据集概述本数据集收录了用于MathArena排行榜的2025年12月版ArXivMath竞赛题目。 ### 数据字段以下为数据集各字段的详细说明： - `problem_idx`（整数型）：该问题在竞赛中的索引编号 - `problem`（字符串型）：完整的题目陈述文本 - `answer`（字符串型）：该问题的标准答案 - `problem_type`（字符串序列）：问题所属类型，可选值为组合数学（Combinatorics）、数论（Number Theory）、代数（Algebra）、几何（Geometry），单个问题可对应多种类型。 ### 许可信息本数据集采用知识共享署名-相同方式共享4.0国际许可协议（CC BY-SA 4.0）进行授权，使用本数据集时请严格遵守该许可协议的相关条款。 ### 引用信息 @misc{balunovic_srimatharena_2025, title = {MathArena: 面向无训练污染数学竞赛的大语言模型评测（原标题：MathArena: Evaluating LLMs on Uncontaminated Math Competitions）}, author = {Mislav Balunović、Jasper Dekoninck、Ivo Petrov、Nikola Jovanović、Martin Vechev}, copyright = {MIT}, url = {https://matharena.ai/}, publisher = {苏黎世联邦理工学院SRI实验室（SRI Lab, ETH Zurich）}, month = 2月, year = {2025}, }

提供机构：

MathArena

搜集汇总

数据集介绍

构建方式

在数学竞赛评估领域，arXivMath December 2025数据集源自MathArena平台，专为评估大型语言模型在未受污染数学问题上的表现而构建。该数据集通过系统收集2025年12月ArXivMath竞赛中的题目，涵盖组合数学、数论、代数与几何等多个核心数学分支，确保每个问题均附带标准答案与详细分类标签。构建过程注重保持问题的原始性与多样性，旨在为模型评估提供高质量、结构化的基准测试环境。

特点

该数据集以其专业性与纯净性著称，所有问题均来自权威数学竞赛，避免了训练数据污染的风险。其独特之处在于每个问题可关联多个数学类型标签，如组合数学与数论交叉，这反映了真实数学问题的复杂性。数据集规模精炼但内容高度聚焦，问题表述严谨且答案精确，为评估模型在跨领域数学推理能力上提供了细腻的观察窗口。

使用方法

使用该数据集时，研究者可将其直接应用于数学问题求解模型的训练与评估，尤其适合测试模型在未见竞赛题目上的泛化能力。典型流程包括加载数据集分割，解析问题陈述、答案及类型标签，进而设计针对性的推理或生成任务。通过结合问题类型信息，用户能深入分析模型在不同数学分支上的表现差异，为模型改进提供实证依据。

背景与挑战

背景概述

在人工智能与数学推理交叉领域，大型语言模型（LLM）的数学问题解决能力评估成为研究热点。由苏黎世联邦理工学院SRI实验室的Mislav Balunović等研究人员于2025年创建的ArXivMath December 2025数据集，旨在为MathArena排行榜提供基准测试资源。该数据集聚焦于数学竞赛题目，涵盖组合数学、数论、代数与几何等核心类型，致力于推动LLM在未受污染数学竞赛环境下的性能评估，为数学自动推理领域提供严谨的评估框架。

当前挑战

该数据集致力于解决数学问题自动解答领域的核心挑战，即评估大型语言模型在复杂、多样化数学竞赛题目上的泛化与推理能力。构建过程中面临多重挑战：题目需涵盖组合数学、数论等多元数学分支，确保类型平衡与代表性；同时需保证数据纯净性，避免训练数据污染，以真实反映模型推理性能；此外，题目答案的精确性与问题表述的清晰性也需严格把控，以支撑可靠评估。

常用场景

经典使用场景

在数学推理与人工智能交叉领域，arxivmath-1225数据集常被用于评估大型语言模型在数学竞赛问题上的表现。该数据集收录了来自ArXivMath 2025年12月的数学问题，涵盖组合数学、数论、代数与几何等多种类型，为研究者提供了一个无污染的基准测试平台。通过模拟真实数学竞赛环境，它能够系统地检验模型在复杂数学问题求解中的逻辑推理与计算能力，推动数学智能的发展。

解决学术问题

该数据集主要解决了数学人工智能领域中模型评估的污染问题，即避免模型在训练过程中接触到测试数据，从而确保评估结果的公正性与可靠性。它支持对大型语言模型在未见过数学问题上的泛化能力进行严格测试，有助于揭示模型在抽象推理、多步骤计算等方面的局限性。这一贡献促进了数学推理任务的标准化评估，为后续研究提供了高质量的基准，加速了数学智能技术的进步。

衍生相关工作

基于arxivmath-1225数据集，衍生了一系列经典研究工作，例如MathArena竞赛平台的开源项目，该项目整合了该数据集用于持续评估大型语言模型的数学能力。相关研究聚焦于改进模型的数学推理架构，如结合符号计算与神经网络的混合方法，以提升在组合数学或几何问题上的准确性。这些工作不仅扩展了数学人工智能的应用边界，还为后续数据集如更广泛的数学竞赛基准提供了设计灵感。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集