gsm8k-platinum-multilingual

Name: gsm8k-platinum-multilingual
Creator: ellamind
Published: 2026-02-24 18:58:17
License: 暂无描述

Hugging Face2026-02-24 更新2026-02-25 收录

下载链接：

https://huggingface.co/datasets/ellamind/gsm8k-platinum-multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

GSM8K Platinum Multilingual 是多语言翻译版本的 GSM8K Platinum 数据集，包含 1,209 个需要多步算术推理的小学数学应用题。该数据集是 [madrylab/gsm8k-platinum](https://huggingface.co/datasets/madrylab/gsm8k-platinum) 的严格清理和验证版本。数据集支持多种语言，包括捷克语、丹麦语、德语、芬兰语、法语、意大利语、荷兰语、波兰语和西班牙语，每种语言的样本数量不等。翻译过程使用 Gemini 3.1 Pro，确保自然语言文本流畅翻译，同时保留数值、算术表达式和逻辑结构。数据集包含多个字段，如问题、解决方案、最终答案、清理状态、翻译信心等，适用于问答和文本生成任务。

提供机构：

ellamind

创建时间：

2026-02-24

搜集汇总

数据集介绍

构建方式

在数学推理评估领域，多语言数据集的构建对于检验大型语言模型的跨语言泛化能力至关重要。GSM8K Platinum Multilingual数据集源于对GSM8K Platinum基准的精心翻译，该基准本身包含1,209个经过严格清洗和验证的小学数学文字问题。翻译过程采用了Gemini 3.1 Pro模型，并启用了高推理强度模式，以确保输出结构化。翻译提示经过专门设计，以区分自然语言文本与数学逻辑元素：故事背景和推理解释被流畅地转化为目标语言，而所有数值、算术表达式及解题步骤的逻辑结构则被原封不动地保留。此外，人名会根据文化习惯进行本地化调整，货币单位被自然翻译但金额不变，度量单位则在不影响答案精确性的前提下予以保留。翻译器还会自我报告置信度并记录任何适应性调整，从而确保了翻译的准确性与一致性。

特点

该数据集的核心特征在于其高质量的多语言覆盖与严谨的元数据标注。它涵盖了捷克语、丹麦语、德语、芬兰语、法语、意大利语、荷兰语、波兰语和西班牙语共九种语言，其中德语版本提供了完整的1,209个问题，其他语言版本则各包含100个代表性样本。每个数据条目不仅包含翻译后的问题和分步解答，还附带了丰富的元数据字段，如清洗状态、翻译置信度、翻译笔记以及是否需要进行本地化适配的标记。这种设计使得数据集不仅是一个评估工具，更成为了研究翻译对数学问题语义影响、模型跨语言推理一致性以及文化适配效果的宝贵资源。其严格的验证流程，包括共识验证、人工核查和修订，进一步保障了数据的可靠性。

使用方法

在自然语言处理研究中，该数据集主要用于评估和比较多语言或跨语言数学推理模型的性能。研究人员可以通过Hugging Face的`datasets`库便捷地加载特定语言配置的数据。例如，使用`load_dataset("ellamind/gsm8k-platinum-multilingual", "deu", split="test")`即可加载德语的测试集。典型的使用场景包括：直接测试模型在多语言环境下的问题解答准确率；分析模型在保留数学结构不变而语言表层形式变化时的表现稳定性；或者利用丰富的元数据深入探究翻译质量与模型性能之间的关联。在使用时，建议同时引用原始GSM8K Platinum论文和本多语言数据集的相关说明，以尊重其学术贡献。

背景与挑战

背景概述

在自然语言处理领域，数学推理能力的评估一直是衡量模型智能水平的关键维度。GSM8K Platinum Multilingual数据集由研究机构madrylab与贡献者ellamind于2025至2026年间共同构建，其核心研究问题聚焦于跨语言环境下的多步算术推理。该数据集基于GSM8K Platinum版本，通过严谨的清洗与验证流程，精选了1,209道小学数学应用题，并利用先进的大语言模型将其翻译为捷克语、丹麦语、德语等多种语言。这一工作不仅扩展了数学推理基准的语言覆盖范围，还为评估模型在多样化语言与文化背景下的泛化能力提供了重要资源，对推动多语言人工智能系统的公平性与鲁棒性研究产生了深远影响。

当前挑战

该数据集旨在解决多语言数学推理任务中的核心挑战，即确保翻译过程不破坏原问题的逻辑结构与数值精确性。具体而言，构建过程中面临双重困难：其一，在语言转换时需平衡自然文本的流畅性与数学表达式的严格保留，例如货币符号与单位名称的本地化可能干扰算术一致性；其二，翻译模型的自信心评估与质量标注机制仍需完善，部分样本可能因文化适配或语义歧义而引入噪声。这些挑战凸显了在多语言基准构建中维持内容保真度与语言自然度之间微妙平衡的复杂性，为后续研究提供了关键的改进方向。

常用场景

经典使用场景

在自然语言处理与数学推理交叉领域，多语言数学问题求解已成为评估模型跨语言泛化能力的关键场景。GSM8K Platinum Multilingual数据集通过提供九种语言版本的小学数学应用题，为研究者构建了一个标准化的多语言算术推理基准。该数据集最经典的使用场景在于系统性地评测大型语言模型在不同语言环境下的多步推理性能，尤其关注模型在保持数值精确性的同时，能否理解并处理语言转换带来的语义差异。

解决学术问题

该数据集有效解决了多语言环境下数学推理评估的标准化缺失问题。传统数学推理基准多集中于英语，难以衡量模型在非英语语境中的真实能力。GSM8K Platinum Multilingual通过严谨的翻译验证流程，确保了问题逻辑结构与数值完整性的跨语言一致性，为比较不同语言模型在算术推理任务上的表现提供了可靠依据。其意义在于推动了跨语言推理研究的可重复性与公平性，使研究者能够深入探究语言特性对数学问题求解的影响机制。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多语言推理模型的架构创新与评估框架构建。研究者基于其翻译一致性特点，开发了针对数值保留与逻辑结构对齐的微调策略，如跨语言参数共享机制。同时，该数据集催生了系列分析研究，探讨语言形态复杂度与数学推理难度的关联性，并为多语言思维链提示工程提供了实验基础，推动了跨语言推理可解释性方法的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集