OlymMATH-eval

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/RUC-AIBOX/OlymMATH-eval

下载链接

链接失效反馈

官方服务：

资源简介：

OlymMATH是一个针对大型语言模型的数学推理数据集，包含不同难度级别的数学问题，旨在评估模型在解决奥林匹克级别数学问题方面的能力。数据集支持中文和英文，并包含多个配置文件，每个配置文件对应不同的数据子集。数据集的评估结果，包括平均准确率和一致性指标，已公开供学术研究使用。

创建时间：

2025-05-08

原始信息汇总

OlymMATH Evaluation Results 数据集概述

基本信息

语言：中文（zh）、英文（en）
任务类别：问答（question-answering）
许可证：MIT

数据集配置

数据集包含多个配置，每个配置对应不同的模型和数据集分割：

qwq-32b
- 数据文件：
  - zh_hard: data/qwq-32b/zh-hard.parquet
  - zh_easy: data/qwq-32b/zh-easy.parquet
  - en_hard: data/qwq-32b/en-hard.parquet
  - en_easy: data/qwq-32b/en-easy.parquet
deepseek-r1-distill-qwen-14b
- 数据文件：
  - zh_hard: data/deepseek-r1-distill-qwen-14b/zh-hard.parquet
  - zh_easy: data/deepseek-r1-distill-qwen-14b/zh-easy.parquet
  - en_hard: data/deepseek-r1-distill-qwen-14b/en-hard.parquet
  - en_easy: data/deepseek-r1-distill-qwen-14b/en-easy.parquet
qwen3-4b
- 数据文件：
  - zh_hard: data/qwen3-4b/zh-hard.parquet
  - zh_easy: data/qwen3-4b/zh-easy.parquet
  - en_hard: data/qwen3-4b/en-hard.parquet
  - en_easy: data/qwen3-4b/en-easy.parquet
deepseek-r1-distill-qwen-7b
- 数据文件：
  - zh_hard: data/deepseek-r1-distill-qwen-7b/zh-hard.parquet
  - zh_easy: data/deepseek-r1-distill-qwen-7b/zh-easy.parquet
  - en_hard: data/deepseek-r1-distill-qwen-7b/en-hard.parquet
  - en_easy: data/deepseek-r1-distill-qwen-7b/en-easy.parquet
qwen3-30b-a3b
- 数据文件：
  - zh_hard: data/qwen3-30b-a3b/zh-hard.parquet
  - zh_easy: data/qwen3-30b-a3b/zh-easy.parquet
  - en_hard: data/qwen3-30b-a3b/en-hard.parquet
  - en_easy: data/qwen3-30b-a3b/en-easy.parquet
openmath-nemotron-14b
- 数据文件：
  - zh_hard: data/openmath-nemotron-14b/zh-hard.parquet
  - zh_easy: data/openmath-nemotron-14b/zh-easy.parquet
  - en_hard: data/openmath-nemotron-14b/en-hard.parquet
  - en_easy: data/openmath-nemotron-14b/en-easy.parquet
deepscaler-1.5b-preview
- 数据文件：
  - zh_hard: data/deepscaler-1.5b-preview/zh-hard.parquet
  - zh_easy: data/deepscaler-1.5b-preview/zh-easy.parquet
  - en_hard: data/deepscaler-1.5b-preview/en-hard.parquet
  - en_easy: data/deepscaler-1.5b-preview/en-easy.parquet
still-3-1.5b-preview
- 数据文件：
  - zh_hard: data/still-3-1.5b-preview/zh-hard.parquet
  - zh_easy: data/still-3-1.5b-preview/zh-easy.parquet
  - en_hard: data/still-3-1.5b-preview/en-hard.parquet
  - en_easy: data/still-3-1.5b-preview/en-easy.parquet
skywork-or1-32b-preview
- 数据文件：
  - zh_hard: data/skywork-or1-32b-preview/zh-hard.parquet
  - zh_easy: data/skywork-or1-32b-preview/zh-easy.parquet
  - en_hard: data/skywork-or1-32b-preview/en-hard.parquet
  - en_easy: data/skywork-or1-32b-preview/en-easy.parquet
openmath-nemotron-7b
- 数据文件：
  - zh_hard: data/openmath-nemotron-7b/zh-hard.parquet
  - zh_easy: data/openmath-nemotron-7b/zh-easy.parquet
  - en_hard: data/openmath-nemotron-7b/en-hard.parquet
  - en_easy: data/openmath-nemotron-7b/en-easy.parquet
light-r1-32b-ds
- 数据文件：
  - zh_hard: data/light-r1-32b-ds/zh-hard.parquet
  - zh_easy: data/light-r1-32b-ds/zh-easy.parquet
  - en_hard: data/light-r1-32b-ds/en-hard.parquet
  - en_easy: data/light-r1-32b-ds/en-easy.parquet
deepseek-r1-distill-qwen-32b
- 数据文件：
  - zh_hard: data/deepseek-r1-distill-qwen-32b/zh-hard.parquet
  - zh_easy: data/deepseek-r1-distill-qwen-32b/zh-easy.parquet
  - en_hard: data/deepseek-r1-distill-qwen-32b/en-hard.parquet
  - en_easy: data/deepseek-r1-distill-qwen-32b/en-easy.parquet
openthinker2-32b
- 数据文件：
  - zh_hard: data/openthinker2-32b/zh-hard.parquet
  - zh_easy: data/openthinker2-32b/zh-easy.parquet
  - en_hard: data/openthinker2-32b/en-hard.parquet
  - en_easy: data/openthinker2-32b/en-easy.parquet
openmath-nemotron-1.5b
- 数据文件：
  - zh_hard: data/openmath-nemotron-1.5b/zh-hard.parquet
  - zh_easy: data/openmath-nemotron-1.5b/zh-easy.parquet
  - en_hard: data/openmath-nemotron-1.5b/en-hard.parquet
  - en_easy: data/openmath-nemotron-1.5b/en-easy.parquet
light-r1-7b-ds
- 数据文件：
  - zh_hard: data/light-r1-7b-ds/zh-hard.parquet
  - zh_easy: data/light-r1-7b-ds/zh-easy.parquet
  - en_hard: data/light-r1-7b-ds/en-hard.parquet
  - en_easy: data/light-r1-7b-ds/en-easy.parquet
light-r1-14b-ds
- 数据文件：
  - zh_hard: data/light-r1-14b-ds/zh-hard.parquet
  - zh_easy: data/light-r1-14b-ds/zh-easy.parquet
  - en_hard: data/light-r1-14b-ds/en-hard.parquet
  - en_easy: data/light-r1-14b-ds/en-easy.parquet
openthinker2-7b
- 数据文件：
  - zh_hard: data/openthinker2-7b/zh-hard.parquet
  - zh_easy: data/openthinker2-7b/zh-easy.parquet
  - en_hard: data/openthinker2-7b/en-hard.parquet
  - en_easy: data/openthinker2-7b/en-easy.parquet
skywork-or1-7b-preview
- 数据文件：
  - zh_hard: data/skywork-or1-7b-preview/zh-hard.parquet
  - zh_easy: data/skywork-or1-7b-preview/zh-easy.parquet
  - en_hard: data/skywork-or1-7b-preview/en-hard.parquet
  - en_easy: data/skywork-or1-7b-preview/en-easy.parquet
deepseek-r1-distill-qwen-1.5b
- 数据文件：
  - zh_hard: data/deepseek-r1-distill-qwen-1.5b/zh-hard.parquet
  - zh_easy: data/deepseek-r1-distill-qwen-1.5b/zh-easy.parquet
  - en_hard: data/deepseek-r1-distill-qwen-1.5b/en-hard.parquet
  - en_easy: data/deepseek-r1-distill-qwen-1.5b/en-easy.parquet
skywork-or1-math-7b
- 数据文件：
  - zh_hard: data/skywork-or1-math-7b/zh-hard.parquet
  - zh_easy: data/skywork-or1-math-7b/zh-easy.parquet
  - en_hard: data/skywork-or1-math-7b/en-hard.parquet
  - en_easy: data/skywork-or1-math-7b/en-easy.parquet
acemath-rl-nemotron-7b
- 数据文件：
  - zh_hard: data/acemath-rl-nemotron-7b/zh-hard.parquet
  - zh_easy: data/acemath-rl-nemotron-7b/zh-easy.parquet
  - en_hard: data/acemath-rl-nemotron-7b/en-hard.parquet
  - en_easy: data/acemath-rl-nemotron-7b/en-easy.parquet
qwen3-0.6b
- 数据文件：
  - zh_hard: data/qwen3-0.6b/zh-hard.parquet
  - zh_easy: data/qwen3-0.6b/zh-easy.parquet
  - en_hard: data/qwen3-0.6b/en-hard.parquet
  - en_easy: data/qwen3-0.6b/en-easy.parquet
qwen3-235b-a22b
- 数据文件：
  - zh_hard: data/qwen3-235b-a22b/zh-hard.parquet
  - zh_easy: data/qwen3-235b-a22b/zh-easy.parquet
  - en_hard: data/qwen3-235b-a22b/en-hard.parquet
  - en_easy: data/qwen3-235b-a22b/en-easy.parquet

引用

bibtex @misc{sun2025challengingboundariesreasoningolympiadlevel, title={Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models}, author={Haoxiang Sun and Yingqian Min and Zhipeng Chen and Wayne Xin Zhao and Zheng Liu and Zhongyuan Wang and Lei Fang and Ji-Rong Wen}, year={2025}, eprint={2503.21380}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.21380}, }

搜集汇总

数据集介绍

构建方式

OlymMATH数据集作为数学推理领域的重要基准，其构建过程体现了严谨的学术追求。研究团队通过收集奥林匹克数学竞赛级别的题目，构建了一个具有挑战性的数学问题库。数据集采用双语（中英文）平行语料设计，并依据题目难度划分为hard和easy两个层级，确保评估的全面性。数据以parquet格式存储，便于高效处理大规模语言模型的评估结果。

特点

该数据集最显著的特点在于其专业性和层次性。题目源自高水平的数学竞赛，确保了评估内容的学术深度。双语支持为跨语言研究提供了便利，难度分级则允许研究者分析模型在不同认知负荷下的表现。数据集特别设计了avg@和cons@两类评估指标，能够从准确性和一致性两个维度全面衡量语言模型的数学推理能力。

使用方法

研究者可通过HuggingFace平台直接访问该数据集，按需加载不同配置（如qwq-32b、deepseek-r1等）下的评估结果。数据集支持按语言（zh/en）和难度（hard/easy）进行灵活筛选，便于开展针对性分析。配套的在线演示系统直观展示了模型解题过程，为行为分析提供了可视化工具。使用时应遵循MIT许可协议，并按规定引用相关论文。

背景与挑战

背景概述

OlymMATH数据集由RUC-AIBOX团队于2025年推出，旨在为大型语言模型提供一个奥林匹克数学竞赛级别的推理能力评估基准。该数据集由Haoxiang Sun等学者在论文《Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models》中正式提出，聚焦于解决复杂数学问题的推理能力测试。作为数学问答领域的前沿数据集，OlymMATH通过中英双语、难度分级的题目设计，填补了高难度数学推理评估工具的空白，对推动语言模型的逻辑推理研究具有重要价值。

当前挑战

该数据集面临的领域挑战在于如何准确评估模型对奥林匹克数学题目的多步推理能力，这类问题通常需要结合抽象思维与创造性解题策略。构建过程中需攻克三大技术难点：题目难度分级体系的科学设计、多语言数学表达的语义对齐，以及评估指标对复杂解题过程的细粒度捕捉。数据集的分布式存储架构（如parquet文件分片）也增加了跨模型性能对比的实施复杂度。

常用场景

经典使用场景

在数学推理领域，OlymMATH数据集被广泛用于评估大型语言模型在解决奥林匹克数学竞赛级别问题上的能力。该数据集通过提供不同难度级别的中英文数学问题，为研究者提供了一个标准化的测试平台，用以衡量模型在复杂数学推理任务中的表现。

实际应用

在实际应用中，OlymMATH数据集被用于开发智能教育工具和数学辅导系统。通过利用该数据集训练和评估模型，教育技术公司能够构建更强大的数学问题解答系统，为学生提供个性化的学习支持和实时反馈。

衍生相关工作

基于OlymMATH数据集，研究者们衍生了一系列经典工作，包括改进的数学推理模型和新的评估方法。例如，一些研究团队利用该数据集开发了针对数学问题的微调技术，显著提升了模型在复杂数学任务中的准确性和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

OlymMATH-eval

OlymMATH Evaluation Results 数据集概述

基本信息

数据集配置

相关资源

引用