archya/MathNet
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/archya/MathNet
下载链接
链接失效反馈官方服务:
资源简介:
MathNet 是一个高质量、大规模、多模态、多语言的数据集,专注于奥林匹克数学问题,旨在评估生成模型中的数学推理能力和基于嵌入系统的数学检索能力。数据集覆盖47个国家、17种语言,包含30,676个专家编写的问题及其解答,涵盖几何、代数、组合数学、数论等多个数学领域。此外,MathNet还构建了一个由人类专家策划的检索基准,包含数学等价和结构相似的问题对。
MathNet is a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems, designed for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. It spans 47 countries, 17 languages, and includes 30,676 expert-authored problems with solutions across diverse domains such as geometry, algebra, combinatorics, and number theory. Additionally, MathNet features a retrieval benchmark of mathematically equivalent and structurally similar problem pairs curated by human experts.
提供机构:
archya
搜集汇总
数据集介绍

构建方式
数学推理与检索领域迎来了MathNet——一个高质、大规模、多模态与多语言并存的数据集。其构建根植于官方竞赛题册的深度挖掘。来自47个国家、横跨1985年至2025年的1595卷PDF文档(逾25000页)构成了数据基石。针对异构文档中问题与答案混杂的难题,研发了一套多阶段大语言模型流水线:首先通过多语言文档解析框架将题册转化为Markdown,再由大模型定位并提取问题与解答片段;随后经由文本相似度校验、模型视觉比对及专家人工复审三重机制确保每对数据精确无误。最终汇聚成涵盖17种语言、包含30766道专家级奥林匹克数学问题与解答的珍藏库。
特点
MathNet展现出深邃的数据特质。其规模空前,以30766道问题远超已有基准,且解答多为长篇证明而非简答,彰显了奥林匹克数学的深度。数据多模态属性显著,5148道问题附有7541张内嵌图片,支持图文结合的推理评估。语言多样性令人瞩目,除74%的英文外,还覆盖了中文、俄语、法语等16种语言,为多语言推理研究提供了沃土。层级化的主题分类体系(如几何>平面几何>四边形>圆内接四边形)使得分领域评估与按需构建课程成为可能。多数数据源获官方授权,确保了版权合规与学术严谨性。
使用方法
MathNet可通过HuggingFace Datasets库便捷调用。用户能加载包含所有问题的默认配置,也可按国家或竞赛名称(如'Argentina'、'IMO')指定子集。返回的每一行实例包含问题陈述(Markdown格式)、官方解答列表、层级主题标签及内嵌图片。该数据集主要用于三项基准评测:生成模型在问题求解上的表现、嵌入模型对数学等价问题的检索能力,以及检索增强生成中检索质量对推理的影响。值得注意的是,v0版本的数据字段可能在后续版本中优化,且LLM辅助标注的元数据(如问题类型与最终答案)可供参考但非绝对真理。
背景与挑战
背景概述
MathNet是由MIT研究团队于2026年构建并发布的奥林匹克级数学推理与检索数据集,由Shaden Alsha等人主导开发。该数据集聚焦于提升大规模语言模型与多模态模型在复杂数学问题上的推理能力,其核心研究问题在于如何构建一个兼具规模、多语言覆盖与任务多样性的高质量基准。MathNet囊括了来自47个国家、17种语言、跨越1985至2025年的30,676道专家编写题目及解答,涵盖几何、代数、数论、组合学等领域,显著超越了现有数学基准的规模与语言多样性。该数据集已被ICLR 2026接收,其发布为数学推理评估与检索增强生成研究提供了全新的标准化平台,对推动人工智能在高级数学问题求解领域的发展具有重要影响力。
当前挑战
MathNet所解决的领域挑战在于现有数学推理基准规模有限、语言覆盖狭窄且任务类型单一,难以全面评估模型的复杂数学推理能力,特别是在多语言与多模态环境下。构建过程中面临的核心挑战包括:从47个国家、1,595卷官方试题册(超过25,000页)中提取对齐的问题-解答对,其中许多老旧文档需手动扫描,且不同书册的编号与排版规范各异;设计多阶段LLM流水线以克服基于规则的启发式方法在异构文档中的失效问题;确保提取内容的准确性,通过基于规则的相似性检查、GPT-4.1判据及人工专家审查三道独立验证机制来防止幻象内容与OCR错误;以及平衡多语言数据的质量控制与版权许可的获取。
常用场景
经典使用场景
在数学推理与智能检索的交汇地带,MathNet凭借其涵盖47个国家、17种语言、超过3万道奥林匹克级数学习题及专家撰写解答的庞大规模,成为评估与推动大语言模型及多模态模型数学能力的重要基石。该数据集最经典的使用场景聚焦于三个标准化评测任务:其一为问题求解,用以衡量生成式模型在奥林匹克数学题上的推理表现;其二为数学感知检索,检验嵌入模型在数学等价与结构相似问题上的检索精度;其三为检索增强型问题求解,评测检索质量对推理性能的提升效果。这一多维度评估框架为模型在复杂数学推理场景中的能力边界提供了前所未有的精准度。
解决学术问题
MathNet的诞生有力回应了数学推理领域长期存在的三大学术困境:现有基准规模匮乏、语言单一且任务维度不足。通过构建大规模、多语言、多模态的奥林匹克数学数据集,它系统性地解决了模型在跨语言数学理解、复杂几何图形推理以及长链逻辑推演等方面的评估短板。研究中揭示了即使在顶尖推理模型如Gemini-3.1-Pro与GPT-5上,正确率仍分别仅为78.4%与69.3%,而嵌入模型在数学等价检索中的Recall@1更是低于5%,深刻凸显了当前模型在处理高难度、结构严谨的数学问题时的系统性不足,为后续研究指明了核心挑战。
衍生相关工作
MathNet的发布已催生出一系列涌现性研究脉络。其大规模、多语言、专家来源的独特属性,为构建更具鲁棒性的数学推理评估体系提供了新范式,启发了后续关于数学检索增强生成与跨语言迁移学习的工作。在强化学习领域,研究者利用MathNet中丰富的可验证答案问题作为密集奖励信号,推动数学推理模型的自我提升训练。同时,其所定义的结构相似与数学等价检索任务,为信息检索社区在数学领域嵌入表征的学习中引入了新的挑战与基准。未来,预计将出现更多基于MathNet的多模态数学理解、跨域知识迁移及课程学习策略的探索。
以上内容由遇见数据集搜集并总结生成



