MATHMIST

Name: MATHMIST
Creator: BRAC University, United International University, Qatar Computing Research Institute, Amazon GenAI, University of Virginia
Published: 2025-10-16 12:59:52
License: 暂无描述

arXiv2025-10-16 更新2025-10-18 收录

下载链接：

https://github.com/mahbubhimel/MathMist

下载链接

链接失效反馈

官方服务：

资源简介：

MATHMIST是一个多语言数学问题解决和推理的并行基准数据集，包含超过21K个对齐的问题-答案对，涵盖七种语言，代表了对高、中、低资源语言环境的平衡覆盖。数据集捕捉了语言的多样性，多种类型的问题设置，以及解决方案的综合能力。

MATHMIST is a parallel benchmark dataset for multilingual mathematical problem-solving and reasoning. It contains over 21,000 aligned question-answer pairs, covering seven languages, and features a balanced coverage of high-, medium-, and low-resource language contexts. The dataset captures linguistic diversity, diverse problem setups, and comprehensive problem-solving capabilities.

提供机构：

BRAC University, United International University, Qatar Computing Research Institute, Amazon GenAI, University of Virginia

创建时间：

2025-10-16

原始信息汇总

MathMist数据集概述

数据集简介

MathMist是一个并行多语言基准数据集，专门用于数学问题解决和推理任务。该数据集包含超过21,000个对齐的问答对，涵盖七种不同语言。

核心特征

多语言支持：覆盖高资源、中等资源和低资源语言设置
数据规模：包含21,000+个对齐的问答样本
问题类型：包含多种问题设置类型
解决方案能力：支持解决方案综合能力评估

数据创建流程

数据来源与语料构建

使用Gemini OCR技术从教科书中提取数据
数据存储为JSONL格式
经过人工验证流程

合成数据生成

生成多项选择题（MCQ）
进行跨语言翻译
应用解决方案扰动

评估方法

测试模型类型

开源小型和中型大型语言模型
专有系统
多语言推理专注模型

提示范式

零样本提示
思维链（CoT）提示
代码切换思维链提示

研究价值

该数据集旨在揭示模型规模、对齐和多语言预训练如何共同影响数学推理性能，特别是在多语言环境下的推理一致性和可解释性方面。

搜集汇总

数据集介绍

构建方式

在数学推理领域，MATHMIST数据集通过多阶段流程构建而成。初始阶段从孟加拉国国家课程与教科书委员会（NCTB）的中学数学教材中提取1,445道数学问题，采用Gemini 2.0 Pro进行光学字符识别并经过人工验证。随后通过跨语言翻译管道将问题扩展至法语、芬兰语、土耳其语、立陶宛语和哈萨克语等七种语言，确保数学逻辑的等值性。通过干扰项生成策略创建了2,266道选择题，并利用扰动生成技术构建了8,670个包含逻辑错误的解决方案变体，最终形成包含21,051个数据实体的平行多语言语料库。

特点

该数据集在数学推理评估领域展现出显著特征。其平行多语言架构覆盖高资源语言（英语、法语）、中资源语言（芬兰语、土耳其语）和低资源语言（孟加拉语、哈萨克语、立陶宛语）的均衡分布，体现了语言类型学的多样性。数据内容涵盖数值计算（58.34%）、符号推理（20.07%）和数学证明（21.59%）三大类别，其中代数问题在符号推理中占据主导地位。特别设计的代码切换推理和扰动推理任务能够深度评估模型在跨语言场景下的逻辑一致性，为研究语言模型的多语言数学推理能力提供了多维度的评估框架。

使用方法

该数据集支持多种实验范式的应用。研究者可采用零样本提示和思维链提示评估模型的基础推理能力，通过代码切换提示探究模型在问题语言与推理语言不一致时的表现。在选择题任务中，模型需从精心设计的干扰项中识别正确答案，而扰动推理任务则要求模型识别解决方案中嵌入的逻辑错误。评估过程采用LLM-as-a-Judge机制，通过数学等价性验证确保评分准确性，同时支持Pass@3等指标的多轮评估。这种多层次评估体系能够全面揭示语言模型在跨语言数学推理中的能力边界与局限性。

背景与挑战

背景概述

MATHMIST数据集于2025年由BRAC大学、联合国际大学、卡塔尔计算研究所以及亚马逊生成式人工智能团队等机构联合构建，旨在填补多语言数学推理评估领域的空白。该数据集聚焦于大语言模型在跨语言数学问题求解中的核心挑战，涵盖七种语言环境下的两万一千余条平行问题对，均衡覆盖高、中、低资源语言类型。其创新性在于通过多模态数据生成流程，系统整合了数学教材内容与合成数据增强技术，为探究语言结构对数学逻辑推理的影响提供了标准化评估框架。

当前挑战

该数据集致力于解决多语言数学推理任务中模型性能不均衡的核心难题，具体体现为低资源语言场景下的准确率显著衰减与代码切换推理中的逻辑连贯性缺失。在构建过程中面临双重挑战：其一是跨语言对齐的技术复杂性，需确保不同语言版本问题在数学语义与逻辑结构上的严格等价；其二是合成数据质量的把控，包括多语言翻译的数学术语一致性维护、干扰项生成的语义合理性验证，以及错误注入策略的隐蔽性设计，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在数学推理能力评估领域，MATHMIST数据集作为多语言数学问题求解的基准测试平台，其经典应用场景体现在系统评估大语言模型在七种语言环境下的数学推理能力。该数据集通过平行对齐的2.1万道数学题目，覆盖高资源语言（英语、法语）、中资源语言（芬兰语、土耳其语）和低资源语言（孟加拉语、哈萨克语、立陶宛语），为研究者提供了跨语言数学能力对比的统一框架。在具体应用中，研究者通常采用零样本提示、思维链推理和代码切换推理三种范式，全面考察模型在代数运算、符号推导和数学证明等任务中的表现。

实际应用

在实际应用层面，MATHMIST为开发多语言数学教育辅助系统提供了关键技术支持。教育科技公司可基于该数据集的评估结果，优化面向不同语言用户的智能解题系统，特别是在孟加拉语等低资源语言的数学教育场景中。多语言在线教育平台能够利用该数据集的平行翻译特性，构建跨语言数学问题解答服务，帮助非英语母语学生获得母语数学辅导。此外，该数据集在代码切换推理方面的探索，为开发适应多语言混合输入场景的教育应用奠定了实践基础，推动实现更包容的数字化数学教育解决方案。

衍生相关工作

该数据集催生了多个重要的衍生研究方向，特别是在多语言数学推理模型的优化方法上。基于MATHMIST的评估发现，研究者提出了针对低资源语言的数学推理增强技术，如跨语言知识蒸馏和平衡多语言微调策略。在模型架构方面，该数据集启发了专门处理代码切换数学问题的混合语言模型设计，以及面向数学推理错误诊断的专项评估框架。同时，该数据集与BenNumEval、SOMADHAN等单语言数学基准形成互补关系，共同推动了多粒度数学能力评估体系的发展，为构建更全面的多语言数学人工智能基准生态系统提供了核心支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集