MCLM

Hugging Face2025-03-02 更新2025-03-03 收录

下载链接：

https://huggingface.co/datasets/amphora/MCLM

下载链接

链接失效反馈

官方服务：

资源简介：

MCLM（多语言竞赛级别数学）是一个设计用于评估多语言环境下高级数学推理能力的基准。该数据集包含了55种语言的竞赛级别数学问题，不仅包括标准的文字问题，还挑战了最先进的大型语言模型。数据集由两部分构成：机器翻译推理问题和人工注释推理问题。机器翻译推理问题是从MATH-500和AIME 2024基准中衍生出来的，而人工注释推理问题则包括IMO（国际数学奥林匹克）问题的官方翻译和国内及地区数学奥林匹克问题。

MCLM (Multilingual Competition-Level Mathematics) is a benchmark designed to evaluate advanced mathematical reasoning capabilities in multilingual settings. This dataset includes competition-level mathematical problems across 55 languages, covering both standard word problems and posing challenging tests for state-of-the-art large language models. The dataset is composed of two parts: machine-translated reasoning problems and manually annotated reasoning problems. The machine-translated reasoning problems are derived from the MATH-500 and AIME 2024 benchmarks, while the manually annotated reasoning problems consist of official translations of International Mathematical Olympiad (IMO) problems and domestic and regional mathematical Olympiad problems.

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

MCLM数据集的构建汇集了机器翻译与人工注释两种方式，其中机器翻译问题源于MATH-500和AIME 2024等成熟基准，采用GPT-4o进行55种语言的翻译并确保答案一致性；人工注释问题包括国际数学奥林匹克（IMO）官方翻译题目及国内外数学竞赛问题，共计覆盖38至55种语言，为评估高级数学推理能力提供了多样化的语言环境。

特点

该数据集的特色在于其跨越55种语言的竞赛级别数学问题，不仅挑战了现有的高级语言模型，也涵盖了从机器翻译到人工注释的多种类型问题，这使得MCLM成为了评估数学推理的多语言通用性的重要基准。此外，数据集通过不同的评估方法，如规则基础验证器和LLM-as-a-Judge，为研究者提供了全面性能评估的可能。

使用方法

使用MCLM数据集时，研究者可以根据不同的子集，如MT-MATH100、MT-AIME2024、M-IMO和M-MO，进行模型训练和评估。每个子集都有其特定的来源、语言数量、样本量以及评估方法，用户需根据自身需求选择合适的子集，并参照相关文档进行数据加载和模型测试，以获得模型在多语言数学推理任务上的性能表现。

背景与挑战

背景概述

MCLM（Multilingual Competition Level Math）数据集是一项旨在评估多语言环境下高级数学推理能力的基准测试。该数据集涵盖了55种语言的竞赛级别数学问题，不仅超越了传统的文字问题，而且对最先进的大型语言模型提出了挑战。MCLM数据集的创建，汇聚了机器翻译和人工注释两种类型的推理问题，旨在推动数学推理研究领域的发展。该数据集的创建时间为2025年，主要研究人员包括Guijin Son、Jiwoo Hong、Hyunwoo Ko和James Thorne，由yonsei.ac.kr团队负责，其对数学推理和自然语言处理等领域产生了深远影响。

当前挑战

MCLM数据集面临的挑战主要包括两个方面：一是其领域问题，即如何在高水平数学推理任务中，特别是在多语言环境下，实现有效的模型评估和性能提升；二是数据构建过程中的挑战，如确保机器翻译问题的答案一致性，以及人工注释问题的质量和准确性。此外，多语言数据的收集和处理也增加了数据集构建的复杂性。

常用场景

经典使用场景

MCLM数据集作为评估多语言环境下高级数学推理能力的基准，其经典使用场景在于对现有的大型语言模型进行挑战，特别是对于那些具有机器翻译和人类注释推理问题的数学题目。该数据集通过包含55种语言的竞赛级别数学问题，为研究提供了丰富的多语言数学推理资源。

实际应用

在实际应用中，MCLM数据集可被用于开发能够处理多语言数学问题的智能系统，这些系统可以辅助教育工作者在全球范围内进行数学教学，同时也可以帮助研究人员和企业开发出能够适应不同语言环境的数学推理算法。

衍生相关工作

MCLM数据集衍生出了许多相关工作，如对多语言数学推理模型的性能评估、对机器翻译在数学问题中的应用研究，以及对不同语言背景下数学问题解决策略的对比分析等。这些工作进一步推动了数学推理与自然语言处理技术的结合，为相关领域的研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集