weylmann/MathNet
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/weylmann/MathNet
下载链接
链接失效反馈官方服务:
资源简介:
MathNet v0 是一个高质量、大规模、多模态、多语言的奥林匹克数学问题数据集,包含30,676个专家编写的问题及其解决方案,涵盖17种语言和47个国家。数据集旨在评估生成模型在数学推理和基于嵌入的系统中数学检索的能力。它包含几何、代数、组合数学、数论等多个数学领域的问题,并提供了详细的解决方案。数据集还包含三个基准任务:问题解决、数学感知检索和检索增强的问题解决。数据集的创建过程包括文档提取、问题-解决方案对提取和验证等多个阶段。
MathNet v0 is a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems, comprising 30,676 expert-authored problems with solutions across 17 languages and 47 countries. The dataset is designed to evaluate mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. It covers diverse mathematical domains such as geometry, algebra, combinatorics, and number theory, and includes detailed solutions. The dataset also features three benchmark tasks: Problem Solving, Math-Aware Retrieval, and Retrieval-Augmented Problem Solving. The creation process involves document ingestion, problem-solution extraction, and verification stages.
提供机构:
weylmann
搜集汇总
数据集介绍

构建方式
MathNet数据集源自47个国家自1985年至2025年间官方发布的1,595卷竞赛问题手册,总计超过25,000页。这些手册由各国IMO代表队编纂,内容涵盖国家级选拔赛、区域性与国际性奥林匹克竞赛。研究者通过多阶段LLM流水线进行数据处理:首先利用dots-OCR将手册转换为Markdown格式,再由Gemini-2.5-Flash识别并分割问题与解答段落;随后由GPT-4.1提取成对的LaTeX友好型Markdown内容;最终经过基于规则的相似性校验、GPT-4.1图像对比审查以及人工专家复核三重验证,确保提取质量与忠实度。
特点
MathNet包含30,676道专家级奥林匹克数学问题及其详尽解答,覆盖17种语言,其中74%为英语,其余涵盖葡萄牙语、西班牙语、法语等。数据集为多模态形式,包含5,148道附有图形的问题,共计7,541张内嵌图像。问题涵盖几何、代数、数论、组合数学等六大主题层级分类体系,解答长度显著超过现有基准。资源以58个国家/地区子集与一个全集配置组织,支持多粒度检索与分析。
使用方法
用户可通过HuggingFace Datasets库直接加载MathNet,使用`load_dataset("ShadenA/MathNet", split="train")`获取全集,或指定国家配置如`load_dataset("ShadenA/MathNet", "Argentina", split="train")`。每条记录包含问题陈述、解答列表、主题路径、语言标识、图像列表及来源元数据。数据集适用于奥林匹克级别推理评估、多语言数学评测、多模态数学推理、主题分层分析以及检索基准构建。LLM辅助标记的答案类型与最终答案字段可作为便捷注释使用,但需注意其未经完全人工审计。
背景与挑战
背景概述
数学推理作为检验大型语言模型与多模态模型能力的核心试金石,其发展却长期受限于现有基准在规模、语言覆盖度与任务多样性上的不足。MathNet数据集由MIT等机构的研究人员于2025年创建,旨在填补这一空白,其核心研究问题聚焦于构建一个高质量、大规模、多语言且多模态的奥林匹克级数学问题库。该数据集横跨47个国家、17种语言,收录了自1985年至2025年间的30,676个由专家撰写的问题与解答,数据来源为各国官方竞赛手册,共计1,595卷PDF,超25,000页,确保了内容权威性与风格一致性。MathNet的推出不仅为数学推理评估设立了新标杆,更通过融入检索任务与检索增强求解任务,推动了对模型数学理解与检索能力的综合性探索,其影响力已获ICLR 2026认可。
当前挑战
该数据集主要应对两大层面的挑战。在领域问题层面,传统的数学基准如GSM8K和MATH局限于单语言、小规模与简单题型,无法全面衡量模型在奥林匹克级别复杂推理上的真正能力,尤其缺乏对多模态图形理解与跨语言数学逻辑的评估。MathNet通过提供长篇幅证明题、多语言试题与内嵌图形的方式,解决了评估深度与广度不足的问题。在构建过程中,核心挑战源自异构文档的提取与对齐:官方手册中问题与解答的排版格式不一,既有分割式也有交错式,且编号命名规则随国家乃至年份变化。为此,团队设计了多阶段LLM流水线,先后使用OCR转换、Gemini识别段落、GPT-4.1提取内容,并实施规则相似度检验、GPT-4.1图片比对与人工专家审核三层验证,最终确保每一对问题-答案的精确性与原创性,有效避免了众包数据常见的噪声问题。
常用场景
经典使用场景
MathNet作为面向奥林匹克数学推理的大规模多模态多语言数据集,其经典使用场景聚焦于评估和提升生成式大语言模型在复杂数学问题上的求解能力。研究者常利用MathNet中涵盖几何、代数、数论与组合数学等领域的数万道专家级题目,对模型进行零样本或少样本的推理测试,考察其逻辑推导、符号操作与证明构造的水平。该数据集的独特之处在于其丰富的图形化题目和长篇幅的官方解答,使得多模态模型与文本模型的推理性能得以在同一框架下进行公平而深入的对比。
衍生相关工作
围绕MathNet已衍生出一系列具有影响力的研究工作,其中最引人注目的包括基于该数据集构建的三大基准任务:MathNet-Solve(问题求解)、MathNet-Retrieve(数学感知检索)与MathNet-RAG(检索增强问题求解)。这些任务不仅系统性地评估了Gemini-3.1-Pro、GPT-5等前沿模型的表现,还催生了针对数学等价检索的专用嵌入模型和更精细的分层主题分类体系。后续工作进一步探索了利用专家级检索结果提升推理模型准确率至97.3%的方法,为数学推理领域开辟了检索增强与强化学习交叉的新方向。
数据集最近研究
最新研究方向
随着大语言模型在符号推理领域的纵深发展,构建兼具多语言覆盖、多模态输入与严格专家标定能力的数学奥林匹克基准已成为前沿热点。MathNet作为迄今规模最大的国际奥赛级数学数据集,横跨47国、17种语言,包含逾3万道带有详尽解答的竞赛题目,并创新性地引入了数学等价检索与检索增强推理任务,弥补了既有基准在语言多样性、题目难度层次与结构化检索方面的关键缺口。其高保真OCR流水线与三阶段质量校验机制确保了数据纯净度,而多国官方试题集的系统整合更使其成为评估模型高级推理能力、推动多语言数学教育国际比较的里程碑式资源。
以上内容由遇见数据集搜集并总结生成



