proxectonos/mgsm_gl
收藏Hugging Face2025-12-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/proxectonos/mgsm_gl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是MGSM(多语言小学数学)数据集的加利西亚语版本,用于作为小学数学问题的基准。数据集包含250个基于基础数学问题的多步推理问题。数据集由Proxecto Nós策划,使用加利西亚语,遵循CC BY SA 4.0许可证。数据集包含两个TSV文件:mgsm_gl_train.tsv用于少量训练,包含8个项目;mgsm_gl_test.tsv用于测试,包含250个项目。测试集包含两个字段:数学问题和数值答案;训练集包含四个字段:问题、逐步解答、数值答案和方程解答。
This dataset is the Galician version of the MGSM (Multilingual Grade School Math) dataset, serving as a benchmark for grade-school math problems. It consists of 250 questions based on basic mathematical problems that require multi-step reasoning. The dataset is curated by Proxecto Nós, in the Galician language, and is licensed under CC BY SA 4.0. It includes two TSV files: mgsm_gl_train.tsv for few-shot training with 8 items, and mgsm_gl_test.tsv for testing with 250 items. The test set contains two fields: the mathematical problem and the numerical answer. The train set includes four fields: question, step-by-step answer, numerical answer, and equation solution.
提供机构:
proxectonos
原始信息汇总
数据集概述
基本信息
- 名称: mgsm_gl
- 语言: Galician
- 许可证: CC BY SA 4.0
- 任务类别:
- 问答
- 文本生成
- 标签: 数学应用题
数据集来源
- 原始数据集: MGSM (Multilingual Grade School Math)
- 论文参考: Language models are multilingual chain-of-thought reasoners
- 维护者: Proxecto Nós
数据集结构
- 文件格式: TSV (*.tsv)
- 文件数量: 2
- mgsm_gl_train.tsv: 8条数据,用于少样本训练。
- mgsm_gl_test.tsv: 250条数据,作为测试集。
数据字段
-
mgsm_gl_test.tsv:
- 数学问题:
str - 数值答案:
int
- 数学问题:
-
mgsm_gl_train.tsv:
- 问题:
str - 答案:
str - 数值答案:
int - 方程解答:
str
- 问题:
搜集汇总
数据集介绍

构建方式
mgsm_gl数据集是MGSM数据集的加泰罗尼亚语版本,由Proxecto Nós团队精心构建,旨在为多步骤数学推理提供基准。该数据集包含8个训练实例和250个测试实例,每个实例由一个数学问题、逐步解答、问题的最终结果以及以方程形式表达的解决方案组成。
使用方法
使用mgsm_gl数据集时,研究者可以将其用于评估语言模型在常识性问题回答、阅读理解评价以及逻辑推理评价等方面的性能。数据集以TSV文件格式提供,分为训练集和测试集,便于研究人员进行数据加载和模型训练。
背景与挑战
背景概述
mgsm_gl数据集,即多语种小学数学(Multilingual Grade School Math)数据集的加泰罗尼亚语版本,其创建旨在为评估语言模型在多步骤数学推理方面的能力提供一个基准。该数据集由Proxecto NÓS组织翻译并整理,包含8个训练实例和250个测试实例,每个实例包含一个需要多步骤推理的基础数学问题、逐步解答、最终结果以及方程式形式的解决方案。其创建时间为2022年,主要研究人员为Proxecto NÓS团队,该数据集对自然语言处理领域,特别是在多语种数学问题解答和逻辑推理评估方面产生了重要影响。
当前挑战
该数据集面临的挑战主要包括:1)如何准确翻译并保持数学问题的逻辑结构,确保不同语言版本的一致性和准确性;2)构建过程中,如何平衡数据集的规模和质量,确保每个实例都能提供有效的训练和测试;3)在多步骤数学推理任务中,如何设计评估指标,以全面和客观地评价语言模型在数学问题解答方面的性能。
常用场景
经典使用场景
在自然语言处理领域,mgsm_gl数据集被广泛用于评估语言模型在多步骤数学推理方面的能力。该数据集包含一系列需要多步骤推理的小学数学问题,其经典使用场景包括对语言模型进行常识性问题回答、阅读理解评估以及逻辑推理评估的训练和测试。
解决学术问题
mgsm_gl数据集解决了多语言数学问题处理中的学术研究问题,尤其是在非英语语境下语言模型的数学推理能力评估。它为研究者提供了一个在特定语言环境下评估模型性能的标准,对提升多语言数学问题解决模型的准确性和可靠性具有重要意义。
实际应用
实际应用中,mgsm_gl数据集可以被用来训练和测试数学辅导系统、智能问答系统以及自动化解题系统等,特别是在需要支持加利西亚语的教育技术领域中,该数据集提供了宝贵的训练资源。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言数学问题解答能力是衡量语言模型智能水平的重要指标。mgsm_gl数据集,作为MGSM数据集的加利西亚语版本,提供了一个新的语言基准,以评估语言模型在多步骤数学推理方面的性能。近期研究集中于利用该数据集对语言模型进行微调,以提高其在数学问答任务中的准确性和推理能力。这些研究不仅推动了数学教育领域的智能化进程,也为模型在逻辑推理方面的应用提供了新的视角,对于理解模型如何处理复杂语言任务具有重要的实践意义和理论价值。
以上内容由遇见数据集搜集并总结生成



