OlymMATH

github2025-04-20 更新2025-04-21 收录

下载链接：

https://github.com/RUCAIBox/OlymMATH

下载链接

链接失效反馈

官方服务：

资源简介：

OlymMATH是一个挑战推理边界的奥林匹克级别数学基准数据集，用于大型语言模型的评估。

OlymMATH is an Olympiad-level mathematical benchmark dataset that challenges the boundaries of reasoning, and is utilized for the evaluation of large language models.

创建时间：

2025-03-27

原始信息汇总

OlymMATH 数据集概述

数据集基本信息

名称: OlymMATH
类型: 数学推理基准测试
级别: 奥林匹克竞赛级别
目的: 用于评估大型语言模型在复杂数学问题上的推理能力

数据集内容

语言: 包含英文(EN)和中文(ZH)版本
难度: 分为简单(EASY)和困难(HARD)两个子集
格式: 数学问题及其解答

获取方式

GitHub仓库: https://github.com/RUCAIBox/OlymMATH
HuggingFace地址: https://huggingface.co/datasets/RUC-AIBOX/OlymMATH

评估方法

评估工具: 基于Math-Verify和vLLM的本地评估代码
评估指标: pass@1, cons@x
评估参数:
- 模型路径
- GPU数量
- 问题索引范围
- 采样数量
- 温度参数
- 最大token数
- 数据集子集选择

注意事项

需要设置足够的max_tokens值以确保模型能完成推理
使用API测试时需要设置足够的超时时长
建议为复杂数学问题分配充足的token预算

相关论文

标题: Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
作者: Haoxiang Sun等
arXiv地址: https://arxiv.org/abs/2503.21380
年份: 2025

搜集汇总

数据集介绍

构建方式

在数学推理领域，OlymMATH数据集的构建旨在挑战大型语言模型在奥林匹克数学竞赛级别问题上的表现。该数据集通过精心筛选和整理一系列高难度数学题目，涵盖了代数、几何、数论等多个数学分支。构建过程中，研究人员确保了题目的多样性和复杂性，以全面评估模型的推理能力。数据集的题目来源于真实的奥林匹克数学竞赛，并经过专家验证，确保其科学性和准确性。

特点

OlymMATH数据集以其高难度和广泛覆盖的数学领域著称。该数据集不仅包含基础的数学问题，还涵盖了需要复杂推理和创造性思维的奥林匹克级别题目。其特点在于题目的多样性和深度，能够有效测试模型在不同数学分支上的表现。此外，数据集还提供了中英文双语版本，方便不同语言背景的研究者使用。

使用方法

使用OlymMATH数据集进行模型评估时，研究者需配置适当的计算环境并安装必要的依赖库。通过提供的评估脚本，用户可以指定模型路径、GPU数量、问题索引范围等参数，灵活地进行测试。为确保模型能够完整生成推理过程和最终答案，建议设置足够的max_tokens值和超时时间。数据集支持多种评估子集，用户可根据需要选择不同难度和语言版本的题目进行测试。

背景与挑战

背景概述

OlymMATH数据集由RUC-AIBOX团队于2025年发布，旨在为大型语言模型提供一个奥林匹克数学竞赛级别的推理能力基准测试。该数据集由Haoxiang Sun等学者主导开发，聚焦于探索语言模型在复杂数学问题求解中的边界。作为数学推理领域的前沿基准，其题目设计融合了代数、几何、数论等多元数学分支的精华，对推动人工智能在高级认知任务中的发展具有标志性意义。数据集通过HuggingFace平台开源后，迅速成为评估模型抽象推理与多步计算能力的重要工具。

当前挑战

该数据集首要挑战在于解决语言模型对奥林匹克数学题目的高阶推理能力不足问题，这类题目通常需要多步骤推导、抽象符号操作和创造性解题策略。构建过程中面临标注一致性控制的难题，数学问题需确保解法的唯一性和严谨性，同时平衡不同难度层级的题目分布。评估阶段存在计算资源消耗大的技术瓶颈，模型生成完整推理链需要超长文本序列支持，对GPU显存和API响应时间提出苛刻要求。

常用场景

经典使用场景

在数学推理领域，OlymMATH数据集为大型语言模型提供了一个极具挑战性的评估平台。该数据集汇集了奥林匹克数学竞赛级别的复杂问题，能够全面检验模型在高级数学推理、逻辑思维和问题解决方面的能力。研究人员利用这一数据集，可以深入探究语言模型在数学领域的表现边界，为模型优化提供明确方向。

衍生相关工作

围绕OlymMATH数据集，学术界已衍生出多项重要研究工作。其中包括基于Math-Verify的验证框架改进、针对数学推理的模型微调方法创新，以及结合vLLM的高效推理技术优化。这些工作不仅推动了数学推理领域的发展，也为其他复杂推理任务的研究提供了宝贵参考。

数据集最近研究