five

introvoyz041/MathNet

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/introvoyz041/MathNet
下载链接
链接失效反馈
官方服务:
资源简介:
MathNet v0 是一个高质量、大规模、多模态、多语言的奥林匹克数学问题数据集,包含来自47个国家、17种语言的30,676个专家编写的问题及其解答。数据集支持三个基准任务:问题解决、数学感知检索和检索增强的问题解决。它涵盖了广泛的数学主题,包括几何、代数、数论、组合数学等,并提供了详细的主题分类。数据来源于官方问题手册,经过多阶段的LLM管道提取和验证。数据集还包含5,148个带有图像的问题,总计7,541张图像。数据集旨在用于奥林匹克级推理评估、多语言数学评估、多模态数学、主题分层分析、数学结构检索基准等。

MathNet v0 is a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems, comprising 30,676 expert-authored problems with solutions from 47 countries in 17 languages. The dataset supports three benchmark tasks: problem solving, math-aware retrieval, and retrieval-augmented problem solving. It covers a wide range of mathematical topics, including geometry, algebra, number theory, combinatorics, and more, with a detailed topic taxonomy. Data is sourced from official problem booklets and processed through a multi-stage LLM pipeline for extraction and verification. The dataset includes 5,148 problems with figures, totaling 7,541 images. It is intended for Olympiad-level reasoning evaluation, multilingual math evaluation, multimodal math, topic-stratified analysis, retrieval benchmarks over mathematical structure, and more.
提供机构:
introvoyz041
搜集汇总
数据集介绍
main_image_url
构建方式
MathNet 的构建根植于对国际数学奥林匹克竞赛(IMO)各国官方试题册的深度挖掘与系统性整合。研究团队历时数载,从47个国家收集了1985年至2025年间共计1,595卷、逾25,000页的官方PDF文档,其中相当数量的早期国家试题集由亲历IMO的专家通过手工扫描与物理归档获得。面对这些语种多样、排版各异、题解分离方式不一的异构文档,团队设计了一套多阶段大语言模型流水线:首先利用多语言文档解析工具将手册转换为Markdown格式,再由模型识别并切分出题目与解答的文本区间;随后通过更强大的模型提取成对的题解内容,并辅以基于规则的文本相似度校验、模型视觉评判以及人类专家的三重审核机制,确保每一对数据的精确对齐与无幻觉生成,最终构成了这一高质量、多模态的奥林匹克数学题解库。
特点
MathNet 数据集以其宏大规模与精妙结构独树一帜。它涵盖30,676道奥林匹克级数学问题及配套专家解答,横跨17种语言与58个国家或地区赛制,其中26%的非英语内容囊括了西班牙语、法语、中文、俄语等11种语言,为多语言数学推理研究提供了前所未有的资源广度。数据集内嵌丰富的多模态信息,超过5,100道题目配有7,500余幅几何图形或示意图,以统一格式嵌入于Markdown文本中。更值得称道的是其层次化的话题分类体系,从几何、代数、数论到组合数学等顶层领域,细分为诸如“平面几何 > 四边形 > 圆内接四边形”的精确路径,为进行分层评估与课程构建奠定了坚实基础。
使用方法
MathNet 在HuggingFace上以多配置形式发布,用户可通过 `load_dataset` 函数灵活调用。默认情况下加载包含所有题目的全集,亦可按国家或地区赛事的配置名称(如 "Argentina" 或 "Asia_Pacific_Mathematics_Olympiad_APMO" )单独获取特定子集。数据集规划了三大基准任务:问题求解任务评估生成模型在奥林匹克题上的表现,由专家解答作为评分依据;数学感知检索任务测试嵌入模型对数学等价或结构相似题型的检索能力;检索增强求解任务则探究检索质量如何影响推理性能。每条数据包含完整的题目与解答的Markdown文本、图片列表、语言标签、来源手册及话题路径等字段,便于研究者进行多维度分析与模型训练。
背景与挑战
背景概述
MathNet是由麻省理工学院(MIT)研究团队于2026年创建的奥林匹克级数学推理与检索数据集,其核心研究问题在于评估大语言模型与多模态模型在复杂数学推理中的能力,并推动数学检索系统的发展。该数据集整合了来自47个国家、17种语言、跨越1985至2025年的30,676道专家编撰的竞赛题目及解答,覆盖几何、代数、数论、组合数学等核心领域。作为ICLR 2026的收录成果,MathNet以其庞大的规模、多语言多模态特性以及对检索增强推理任务的创新设计,显著超越了现有数学基准(如GSM8K、MATH等),为数学推理研究提供了前所未有的丰富资源。
当前挑战
MathNet所解决的领域挑战主要在于现有数学基准在规模、语言覆盖和任务多样性上的局限性,尤其是在奥林匹克级推理任务中,模型表现仍显不足——即便顶尖模型(如Gemini-3.1-Pro)在测试集上的正确率仅为78.4%,而嵌入模型在数学等价检索任务中的Recall@1低于5%。在构建过程中,团队面临了从1,595本官方PDF册子(超过25,000页)中精准提取问题-解答对的重大挑战,需要应对不同国家文档中排版、编号和命名规范的巨大差异,同时还必须处理大量老旧书册的物理扫描与OCR转换工作,最终通过多阶段LLM流水线和三重验证机制(规则校验、模型评判与专家审查)确保了数据质量。
常用场景
经典使用场景
MathNet作为一座横跨47个国家、17种语言、涵盖30,676道奥林匹克级别数学问题的庞大语料库,其核心使用场景在于评估与提升大型语言模型及多模态模型的数学推理能力。该数据集通过精心设计的三大基准任务——问题求解、数学感知检索以及检索增强的问题求解——为研究者提供了全面且层次分明的测试平台。特别地,问题求解任务要求模型对奥林匹克难度的题目生成严谨的证明或答案,并对照专家撰写的官方解法进行评分,这远比传统的小学或高中数学基准更能揭示模型推理能力的真实边界。数学感知检索任务则聚焦于嵌入模型能否识别出数学上等价或结构相似的问题,而非仅依赖表面文本相似性。检索增强任务进一步探究了检索质量对推理过程的加持效应,三个任务共同构成了当前最为严苛的数学推理评估体系。
实际应用
在实际应用层面,MathNet展现了从学术研究到产业落地的多重转化价值。最直接的用途是作为智能教育系统的数学推理测试基准,可被在线学习平台或自适应学习工具用于评估和训练AI导师的解题能力,尤其在需要复杂逻辑推理和多媒体理解的高级数学竞赛辅导场景中。MathNet的检索基准能够驱动数学知识库的构建与优化,例如在学术搜索引擎中,智能检索系统可依据数学结构而非关键词变体精确找到等价问题或类似解法,提升科研人员的文献查阅效率。此外,该数据集的多语言特性使其可服务于跨语种的数学教育产品,为不同语言背景的学生提供统一的习题练习与讲解服务。在更前沿的领域,检索增强生成(RAG)任务的结果直接指导了工业级对话系统如何有效融入外部知识,从而在实际部署中提升对数学相关复杂问询的答复准确率。
衍生相关工作
MathNet的发布不仅本身是一个里程碑,更催生了一系列富有启发性的衍生研究方向与经典工作。基于其提供的30,000多道带有专家解法的问题,研究者发起了针对数学推理的强化学习训练新范式,利用可验证答案作为密集奖励信号,训练模型在解题过程中进行自我反思与策略优化。同时,该数据集对数学结构等价性检索的强调,驱动了嵌入模型领域内针对数学文本的特殊表示学习研究,催生了多种专为数学表达式设计的对比学习预训练方法。此外,MathNet在检索增强问题求解上的发现——即检索质量对推理精度具有决定性影响——直接引出了关于检索器与生成器协同优化的经典工作,例如采用硬负样本挖掘或专家检索管道来提升RAG系统在封闭域数学任务上的表现。这些工作共同勾勒出一条从数据构建到模型训练再到系统集成的完整知识链。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作