gsm8k-googletranslated

Hugging Face2025-03-22 更新2025-03-23 收录

下载链接：

https://huggingface.co/datasets/Sara237/gsm8k-googletranslated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言数学问题解答数据集，包含德语、英语、西班牙语、法语、日语、俄语、斯瓦希里语和泰语等语言配置。每个语言配置都包括问题和答案的文本形式、答案的数字形式以及方程的解。数据集分为训练集和测试集，其中训练集样本数量为8，测试集样本数量为7465。

创建时间：

2025-03-21

原始信息汇总

数据集概述

数据集基本信息

数据集名称: gsm8k-googletranslated
数据集地址: https://huggingface.co/datasets/Sara237/gsm8k-googletranslated

数据集配置

数据集包含多个语言配置，每个配置包含以下特征：

question: 问题文本，数据类型为字符串。
answer: 答案文本，数据类型为字符串。
answer_number: 答案数字，数据类型为整型。
equation_solution: 方程解，数据类型为字符串。

数据集语言配置

数据集支持以下语言配置：

de: 德语
en: 英语
es: 西班牙语
fr: 法语
ja: 日语
ru: 俄语
sw: 斯瓦希里语
th: 泰语
zh: 中文

数据集分割

每个语言配置包含以下分割：

train: 训练集
test: 测试集

数据集大小

每个语言配置的下载大小和数据集大小如下：

语言配置	下载大小 (bytes)	数据集大小 (bytes)
de	1190068	2122187
en	1068424	1878109
es	1134631	2034697
fr	1211393	2184651
ja	1302450	2575985
ru	1589788	3355450
sw	1085804	1965257
th	1651937	4322967
zh	1071440	1736787

数据集示例数量

每个语言配置的训练集和测试集的示例数量如下：

语言配置	训练集示例数量	测试集示例数量
de	8	7465
en	8	7465
es	8	7465
fr	8	7465
ja	8	7465
ru	8	7465
sw	8	7465
th	8	7465
zh	8	7465

数据文件路径

每个语言配置的数据文件路径如下：

语言配置	训练集路径	测试集路径
de	de/train-*	de/test-*
en	en/train-*	en/test-*
es	es/train-*	es/test-*
fr	fr/train-*	fr/test-*
ja	ja/train-*	ja/test-*
ru	ru/train-*	ru/test-*
sw	sw/train-*	sw/test-*
th	th/train-*	th/test-*
zh	zh/train-*	zh/test-*

搜集汇总

数据集介绍

构建方式

gsm8k-googletranslated数据集基于原始的GSM8K数据集，通过Google翻译工具将其翻译为多种语言版本。该数据集涵盖了德语、英语、西班牙语、法语、日语、俄语、斯瓦希里语、泰语和中文等多种语言。每个语言版本的数据集均包含训练集和测试集，训练集规模较小，主要用于模型微调，而测试集规模较大，用于评估模型在不同语言环境下的表现。数据集的构建过程注重保持原始问题的数学逻辑和结构，确保翻译后的内容在语义上的一致性。

特点

gsm8k-googletranslated数据集的特点在于其多语言覆盖和数学问题的多样性。每个语言版本的数据集均包含问题、答案、答案数值以及方程解法的详细描述，便于模型理解和学习。数据集中的问题涵盖了广泛的数学领域，适合用于训练和评估多语言数学推理模型。此外，数据集的翻译质量较高，能够有效支持跨语言模型的开发与测试。

使用方法

使用gsm8k-googletranslated数据集时，研究人员可以根据目标语言选择相应的配置文件进行加载。数据集提供了训练集和测试集的划分，训练集可用于模型的微调，而测试集则用于评估模型在特定语言环境下的表现。通过结合方程解法和答案数值，研究人员可以深入分析模型在数学推理任务中的表现，并进一步优化模型的跨语言能力。数据集的多语言特性使其成为开发多语言数学推理模型的理想选择。

背景与挑战

背景概述

gsm8k-googletranslated数据集是一个多语言数学问题求解数据集，旨在推动自然语言处理与数学推理的交叉研究。该数据集基于原始的gsm8k数据集，通过Google翻译工具将其翻译为多种语言，包括德语、英语、西班牙语、法语、日语、俄语、斯瓦希里语、泰语和中文。其核心研究问题在于探索多语言环境下数学问题的自动求解能力，尤其是跨语言迁移学习的潜力。该数据集为研究多语言数学推理模型提供了重要资源，对提升全球范围内教育技术的智能化水平具有深远影响。

当前挑战

gsm8k-googletranslated数据集面临的挑战主要体现在两个方面。其一，数学问题的多语言翻译可能引入语义偏差或语法错误，影响模型的推理能力。其二，不同语言之间的文化背景和表达习惯差异可能导致问题理解的复杂性增加，这对模型的跨语言泛化能力提出了更高要求。此外，数据集的构建过程中，如何确保翻译的准确性和一致性，同时保持数学问题的逻辑完整性，也是一个技术难点。这些挑战为多语言数学推理模型的开发与优化提供了重要的研究方向。

常用场景

经典使用场景

gsm8k-googletranslated数据集广泛应用于多语言数学问题求解领域，尤其是在自然语言处理与数学推理的结合研究中。该数据集通过提供多种语言的数学问题及其解答，为研究者提供了一个跨语言的基准测试平台，用于评估和比较不同语言模型在数学问题求解中的表现。

衍生相关工作

基于gsm8k-googletranslated数据集，研究者们开发了多种多语言数学问题求解模型，如多语言Transformer模型和跨语言迁移学习框架。这些工作不仅提升了模型在数学问题求解中的表现，还为多语言自然语言处理领域提供了新的研究思路和方法。

数据集最近研究