OlymMATH

Name: OlymMATH
Creator: 中国人民大学信息学院，中国人民大学高灵人工智能学院，北京智源人工智能研究院，DataCanvas Alaya NeW
Published: 2025-03-27 19:20:17
License: 暂无描述

arXiv2025-03-27 更新2025-03-29 收录

下载链接：

https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

下载链接

链接失效反馈

官方服务：

资源简介：

OlymMATH是一个专门为评估大型语言模型数学推理能力而设计的奥赛级别数学问题数据集，由200个经过精心挑选和验证的数学问题组成，涵盖代数、几何、数论和组合数学四个主要数学领域。数据集分为容易和困难两个级别，每个问题都有英文和中文两个版本，以满足多语言评估的需求。该数据集旨在推动未来大型语言模型数学推理能力的研究和进步。

OlymMATH is an Olympiad-level mathematics problem dataset specifically designed for evaluating the mathematical reasoning capabilities of large language models. It comprises 200 meticulously selected and validated mathematical problems spanning four core mathematical domains: algebra, geometry, number theory, and combinatorics. The dataset is categorized into two difficulty levels: easy and hard. Each problem is provided in both English and Chinese versions to support multilingual evaluation. This dataset aims to promote the research and advancement of mathematical reasoning abilities for future large language models.

提供机构：

中国人民大学信息学院，中国人民大学高灵人工智能学院，北京智源人工智能研究院，DataCanvas Alaya NeW

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

OlymMATH数据集精心构建了200道奥林匹克数学竞赛级别的问题，涵盖代数、几何、数论和组合数学四大核心领域。这些问题均从权威印刷资源中手动收集，包括专业杂志、教材和官方竞赛材料，以确保其原创性和高质量。为避免数据污染，所有问题均未从在线资源中获取。每个问题经过专家验证，并配有精确的数值答案，确保评估的客观性和可重复性。此外，数据集提供英文和中文双语版本，通过两阶段LLM翻译流程确保语言准确性和数学严谨性。

特点

OlymMATH数据集以其高难度和全面性著称，分为简单（AIME级别）和困难（挑战最先进推理模型）两个难度层级。问题设计注重多样性和复杂性，尤其包含需要多步推理和精确计算的题目。数据集的一大特色是其双语平行评估能力，支持对模型在英语和中文语境下的数学推理能力进行系统比较。此外，所有几何问题均转化为纯文本描述，确保与语言模型评估框架的兼容性。

使用方法

使用OlymMATH数据集时，研究者可采用Pass@1和Cons@10两种互补的评估指标。对于每个问题，建议生成多个模型响应以提高评估稳健性。评估过程需注意答案格式的标准化，仅接受实数或区间形式的答案以简化验证流程。数据集兼容现有MATH基准的评估工具，便于集成到现有研究流程中。对于双语评估，建议分别测试模型在英文和中文版本上的表现，以全面衡量其跨语言推理能力。为充分发挥数据集的挑战性，建议结合案例研究分析模型的推理过程，而不仅依赖最终答案的正确性。

背景与挑战

背景概述

OlymMATH数据集由中国人民大学高瓴人工智能学院、北京智源人工智能研究院等机构的研究团队于2025年提出，旨在解决当前大型语言模型在数学推理能力评估方面的局限性。随着语言模型的快速发展，现有数学基准如GSM8K和MATH已逐渐达到饱和状态，无法有效区分先进模型的推理能力。OlymMATH包含200道经过精心筛选的奥林匹克数学竞赛级别题目，涵盖代数、几何、数论和组合数学四大领域，并分为易、难两个难度级别。该数据集支持中英双语评估，为数学推理能力的全面测评提供了新标准。

当前挑战

OlymMATH面临的挑战主要体现在两个方面：领域问题方面，当前最先进的语言模型在难题子集上的准确率仅达30%左右，表明奥林匹克数学问题对现有模型仍构成显著挑战；构建过程方面，为确保题目质量，所有问题均来自纸质出版物而非网络资源，需经过专家人工验证和标注，且需将几何问题转化为纯文本描述，这些要求大幅增加了数据集的构建难度。此外，创建双语平行版本需经过多轮机器翻译和人工校验，进一步提高了数据集的建设成本。

常用场景

经典使用场景

OlymMATH数据集作为一项专为大型语言模型设计的数学推理基准，其经典使用场景主要集中在评估模型在复杂数学问题上的推理能力。该数据集通过精心设计的200道奥林匹克数学题目，覆盖代数、几何、数论和组合数学四大领域，旨在测试模型在高级数学推理任务中的表现。特别是在慢思考模式下，该数据集能够有效区分模型的深度推理能力，为研究者提供了一个可靠的评估工具。

实际应用

在实际应用中，OlymMATH被广泛用于评估和改进教育领域的人工智能系统。许多在线教育平台利用该数据集来测试其数学解题助手的性能，从而优化算法以更好地辅助学生学习。此外，该数据集也被用于开发更强大的数学推理模型，这些模型可应用于自动解题、数学竞赛训练等场景，为数学教育智能化提供了重要支持。

衍生相关工作

OlymMATH的推出催生了一系列相关研究工作。基于该数据集，研究者开发了多种改进数学推理能力的新方法，如DeepSeek-R1等慢思考模型。同时，该数据集也启发了其他领域的研究者创建类似的高难度评估基准，如Omni-MATH和MathOdyssey等。这些工作共同推动了人工智能在复杂推理任务上的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集