five

BlueMO

收藏
github2025-07-15 更新2025-07-16 收录
下载链接:
https://github.com/Luobots/BlueMO
下载链接
链接失效反馈
官方服务:
资源简介:
BlueMO是一个全面且具有挑战性的数据集,包含数学奥林匹克问题及其详细解答,这些内容来自著名的“小蓝书”系列(第二版),是中国学生备战国内和国际数学奥林匹克竞赛的重要资源。

BlueMO is a comprehensive and challenging dataset containing mathematical Olympiad problems and their detailed solutions, derived from the renowned "Little Blue Book" series (Second Edition). It serves as a critical resource for Chinese students preparing for both domestic and international mathematical Olympiad competitions.
创建时间:
2025-07-15
原始信息汇总

BlueMO数据集概述

数据集简介

BlueMO是一个高质量数学奥林匹克竞赛数据集,源自中国著名的"小蓝书"系列(第二版)。该数据集包含数学竞赛题目及详细解答,旨在推动和评估大型语言模型在高级数学推理方面的能力。

数据来源

  • 来源系列:"小蓝书"系列(华东师范大学出版社出版)
  • 系列特点:以深度、挑战性题目和优雅解法闻名
  • 覆盖领域:集合、三角函数、几何、数论、图论、极值组合等数学奥林匹克核心领域

数据集内容

高中部分(14卷)

  1. 集合
  2. 函数与函数方程
  3. 三角函数
  4. 平均值不等式与柯西不等式
  5. 不等式的解题方法与技巧
  6. 数列与数学归纳法
  7. 平面几何
  8. 复数与向量
  9. 几何不等式
  10. 数论
  11. 组合数学
  12. 图论
  13. 组合极值
  14. 高中数学竞赛中的解题方法与策略

数据结构

数据集提供原始数据(*.tex)和处理后的数据,包含以下字段: json { "source_file": "原始文件路径", "problem_type": "问题类型", "problem": "问题描述(LaTeX格式)", "solution": "详细解答(LaTeX格式)", "remark": "备注", "figures": "关联图表" }

应用场景

  1. 训练与微调:增强大型语言模型的高级数学推理能力
  2. AI评估:评估AI系统的问题解决能力和逻辑严谨性
  3. 形式验证:将问题形式化为数学语言进行推理能力评估
  4. 比较分析:系统评估不同模型和方法的推理能力

引用信息

bibtex @misc{chen2025bluemo, title={BlueMO: A High-Quality Mathematical Olympiad Data Resources from Little Blue Book Series}, author={Chen, Yizhou, Luo, Yifan, Zhang, Yifan, Yuan, Yang}, year={2025}, publisher={GitHub}, howpublished={url{https://github.com/Luobots/BlueMO}} }

附加信息

作者Yizhou Chen于2023年11月1日至2024年1月5日在上海期智研究院实习期间完成本项工作。

搜集汇总
数据集介绍
main_image_url
构建方式
BlueMO数据集源自中国数学奥林匹克竞赛的经典教材《小蓝书》系列第三版,该系列由华东师范大学出版社出版,以其深度和挑战性闻名。数据集构建过程中,研究者从14卷高中分册中精选数学竞赛题目及其详细解答,涵盖了集合、函数、三角函数、不等式、数列、几何、数论、组合数学等多个数学领域。每道题目均以LaTeX格式呈现,确保数学符号和公式的精确表达,同时保留了原始教材中的解题思路和逻辑结构。
特点
BlueMO数据集以其高质量和广泛覆盖的数学主题著称,特别适合用于评估和提升大型语言模型在高级数学推理方面的能力。数据集中的题目不仅难度层次分明,而且每道题都配有详尽的解答过程,这为研究者提供了丰富的训练和测试素材。此外,数据集还包含了题目所涉及的图表和备注信息,进一步增强了其在复杂数学问题解决中的应用价值。
使用方法
BlueMO数据集提供了原始LaTeX文件和处理后的结构化数据,便于研究者直接使用。数据集按题目类型(如计算题、证明题等)分类,每道题目包含问题描述、解答步骤、备注及相关图表路径。研究者可利用该数据集进行模型训练、微调或评估,特别是在数学推理和形式化验证任务中表现突出。数据集还支持将问题转化为数学语言(如LEAN),以验证模型的推理能力。
背景与挑战
背景概述
BlueMO数据集是清华大学研究团队基于华东师范大学出版社出版的《小蓝书》系列(第二版)精心构建的高质量数学奥赛资源库。该数据集由杨元、罗一凡等学者主导开发,旨在为大型语言模型提供高阶数学推理能力的训练与评估基准。作为中国数学奥赛训练的核心教材,《小蓝书》涵盖集合论、三角函数、数论等14个专题,其严谨的问题设计和精妙的解法体系,使得BlueMO成为测试AI系统复杂逻辑推理能力的理想素材。该数据集的建立不仅填补了数学竞赛领域结构化数据资源的空白,更为形式化验证、跨模型比较等研究提供了重要基础设施。
当前挑战
构建BlueMO数据集面临双重挑战:在领域问题层面,数学奥赛题目通常包含多层抽象概念和非常规解题路径,这对AI系统的符号推理、多步演绎能力提出极高要求;而在数据构建过程中,需处理LaTeX格式的复杂数学表达式转换问题,确保公式语义的精确保留。同时,原始教材中的图文混排内容需要人工标注解构,特别是几何证明题涉及的矢量图形与代数表述的关联性验证,耗费大量专家资源。此外,不同专题间解题范式的差异性也增加了数据标准化的难度,例如组合极值问题与函数方程在解题逻辑上存在显著分野。
常用场景
经典使用场景
在人工智能领域,BlueMO数据集作为高质量数学奥林匹克竞赛题目的集合,为大型语言模型(LLMs)的数学推理能力提供了重要的训练和评估资源。该数据集涵盖了集合论、三角函数、几何、数论等多个数学分支,通过复杂的题目和详细的解答,能够有效测试和提升模型在高级数学问题解决中的表现。
解决学术问题
BlueMO数据集解决了人工智能研究中数学推理能力评估的难题。通过提供多样化的数学奥林匹克题目及其解答,该数据集为研究者提供了一个标准化的测试平台,用于评估模型在复杂数学问题中的表现。这不仅填补了数学推理领域数据集的空白,还为模型优化和算法改进提供了重要参考。
衍生相关工作
BlueMO数据集的推出催生了一系列相关研究,特别是在数学推理和形式化验证领域。许多研究者基于该数据集开发了新的算法和模型,用于解决复杂的数学问题。此外,该数据集还被用于形式化数学语言(如LEAN)的研究,推动了人工智能在数学定理证明和形式化推理方面的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作