BlueMO

github2025-07-15 更新2025-07-16 收录

下载链接：

https://github.com/Luobots/BlueMO

下载链接

链接失效反馈

官方服务：

资源简介：

BlueMO是一个全面且具有挑战性的数据集，包含数学奥林匹克问题及其详细解答，这些内容来自著名的“小蓝书”系列（第二版），是中国学生备战国内和国际数学奥林匹克竞赛的重要资源。

BlueMO is a comprehensive and challenging dataset containing mathematical Olympiad problems and their detailed solutions, derived from the renowned "Little Blue Book" series (Second Edition). It serves as a critical resource for Chinese students preparing for both domestic and international mathematical Olympiad competitions.

创建时间：

2025-07-15

原始信息汇总

BlueMO数据集概述

数据集简介

BlueMO是一个高质量数学奥林匹克竞赛数据集，源自中国著名的"小蓝书"系列（第二版）。该数据集包含数学竞赛题目及详细解答，旨在推动和评估大型语言模型在高级数学推理方面的能力。

数据来源

来源系列："小蓝书"系列（华东师范大学出版社出版）
系列特点：以深度、挑战性题目和优雅解法闻名
覆盖领域：集合、三角函数、几何、数论、图论、极值组合等数学奥林匹克核心领域

数据集内容

高中部分（14卷）

集合
函数与函数方程
三角函数
平均值不等式与柯西不等式
不等式的解题方法与技巧
数列与数学归纳法
平面几何
复数与向量
几何不等式
数论
组合数学
图论
组合极值
高中数学竞赛中的解题方法与策略

数据结构

数据集提供原始数据（*.tex）和处理后的数据，包含以下字段： json { "source_file": "原始文件路径", "problem_type": "问题类型", "problem": "问题描述（LaTeX格式）", "solution": "详细解答（LaTeX格式）", "remark": "备注", "figures": "关联图表" }

应用场景

训练与微调：增强大型语言模型的高级数学推理能力
AI评估：评估AI系统的问题解决能力和逻辑严谨性
形式验证：将问题形式化为数学语言进行推理能力评估
比较分析：系统评估不同模型和方法的推理能力

引用信息

bibtex @misc{chen2025bluemo, title={BlueMO: A High-Quality Mathematical Olympiad Data Resources from Little Blue Book Series}, author={Chen, Yizhou, Luo, Yifan, Zhang, Yifan, Yuan, Yang}, year={2025}, publisher={GitHub}, howpublished={url{https://github.com/Luobots/BlueMO}} }

附加信息

作者Yizhou Chen于2023年11月1日至2024年1月5日在上海期智研究院实习期间完成本项工作。

搜集汇总

数据集介绍

构建方式

BlueMO数据集源自中国数学奥林匹克竞赛的经典教材《小蓝书》系列第三版，该系列由华东师范大学出版社出版，以其深度和挑战性闻名。数据集构建过程中，研究者从14卷高中分册中精选数学竞赛题目及其详细解答，涵盖了集合、函数、三角函数、不等式、数列、几何、数论、组合数学等多个数学领域。每道题目均以LaTeX格式呈现，确保数学符号和公式的精确表达，同时保留了原始教材中的解题思路和逻辑结构。

特点

BlueMO数据集以其高质量和广泛覆盖的数学主题著称，特别适合用于评估和提升大型语言模型在高级数学推理方面的能力。数据集中的题目不仅难度层次分明，而且每道题都配有详尽的解答过程，这为研究者提供了丰富的训练和测试素材。此外，数据集还包含了题目所涉及的图表和备注信息，进一步增强了其在复杂数学问题解决中的应用价值。

使用方法

BlueMO数据集提供了原始LaTeX文件和处理后的结构化数据，便于研究者直接使用。数据集按题目类型（如计算题、证明题等）分类，每道题目包含问题描述、解答步骤、备注及相关图表路径。研究者可利用该数据集进行模型训练、微调或评估，特别是在数学推理和形式化验证任务中表现突出。数据集还支持将问题转化为数学语言（如LEAN），以验证模型的推理能力。

背景与挑战

背景概述

BlueMO数据集是清华大学研究团队基于华东师范大学出版社出版的《小蓝书》系列（第二版）精心构建的高质量数学奥赛资源库。该数据集由杨元、罗一凡等学者主导开发，旨在为大型语言模型提供高阶数学推理能力的训练与评估基准。作为中国数学奥赛训练的核心教材，《小蓝书》涵盖集合论、三角函数、数论等14个专题，其严谨的问题设计和精妙的解法体系，使得BlueMO成为测试AI系统复杂逻辑推理能力的理想素材。该数据集的建立不仅填补了数学竞赛领域结构化数据资源的空白，更为形式化验证、跨模型比较等研究提供了重要基础设施。

当前挑战

构建BlueMO数据集面临双重挑战：在领域问题层面，数学奥赛题目通常包含多层抽象概念和非常规解题路径，这对AI系统的符号推理、多步演绎能力提出极高要求；而在数据构建过程中，需处理LaTeX格式的复杂数学表达式转换问题，确保公式语义的精确保留。同时，原始教材中的图文混排内容需要人工标注解构，特别是几何证明题涉及的矢量图形与代数表述的关联性验证，耗费大量专家资源。此外，不同专题间解题范式的差异性也增加了数据标准化的难度，例如组合极值问题与函数方程在解题逻辑上存在显著分野。

常用场景

经典使用场景

在人工智能领域，BlueMO数据集作为高质量数学奥林匹克竞赛题目的集合，为大型语言模型（LLMs）的数学推理能力提供了重要的训练和评估资源。该数据集涵盖了集合论、三角函数、几何、数论等多个数学分支，通过复杂的题目和详细的解答，能够有效测试和提升模型在高级数学问题解决中的表现。

解决学术问题

BlueMO数据集解决了人工智能研究中数学推理能力评估的难题。通过提供多样化的数学奥林匹克题目及其解答，该数据集为研究者提供了一个标准化的测试平台，用于评估模型在复杂数学问题中的表现。这不仅填补了数学推理领域数据集的空白，还为模型优化和算法改进提供了重要参考。

衍生相关工作

BlueMO数据集的推出催生了一系列相关研究，特别是在数学推理和形式化验证领域。许多研究者基于该数据集开发了新的算法和模型，用于解决复杂的数学问题。此外，该数据集还被用于形式化数学语言（如LEAN）的研究，推动了人工智能在数学定理证明和形式化推理方面的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集