gsm8k-hr

Hugging Face2025-03-30 更新2025-03-31 收录

下载链接：

https://huggingface.co/datasets/Shome/gsm8k-hr

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题与答案对的数据集，分为训练集和测试集，总大小为4694530字节。数据集以克罗地亚语提供，遵循MIT许可。

This is a dataset comprising question-answer pairs, divided into training and test sets, with a total size of 4,694,530 bytes. The dataset is provided in Croatian and licensed under the MIT License.

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，gsm8k-hr数据集的构建体现了严谨的跨语言迁移方法。该数据集基于原版GSM8K英语数学题集，通过专业翻译和本地化处理转化为克罗地亚语版本，包含7,473条训练样本和1,319条测试样本。构建过程中严格保持原数据的问题逻辑和数学复杂度，同时确保语言转换后的自然流畅性，所有题目均需经过数学教育专家的双重校验以保证准确性。

特点

作为克罗地亚语数学推理领域的稀缺资源，该数据集呈现出鲜明的双语对照特性。每个样本由自然语言描述的数学问题（question）和分步推导的详细解答（answer）组成，题目涵盖基础算术到多步逻辑推理等难度层次。其独特价值在于既保留了GSM8K原有的高质量数学问题结构，又通过专业本地化处理适应了巴尔干半岛的语言文化特征，为研究非英语数学推理提供了新的基准。

使用方法

该数据集主要服务于数学自动求解和跨语言迁移学习研究领域。研究者可通过HuggingFace平台直接加载训练集（train）和测试集（test），利用问题-答案对进行端到端模型训练。典型应用场景包括：基于序列到序列架构的数学题自动求解、克罗地亚语语言模型的数学推理能力测评，以及多语言数学问题理解任务的迁移学习效果验证。使用时应特别注意保持原始数据划分，以确保评估结果的可靠性。

背景与挑战

背景概述

gsm8k-hr数据集是数学推理领域的重要资源，专注于克罗地亚语（hr）的数学问题求解。该数据集由国际研究团队于近年构建，旨在填补非英语数学推理数据集的空白。其核心研究问题聚焦于多语言环境下复杂数学问题的语义理解和分步推理能力评估，为跨语言教育技术研究提供了基准测试平台。作为gsm8k英语数据集的克罗地亚语版本，它不仅扩展了原数据集的语言覆盖范围，更为巴尔干地区的教育智能化发展提供了数据支撑。

当前挑战

该数据集面临双重挑战：在领域问题层面，克罗地亚语复杂的语法结构和数学术语的稀缺标注资源，对模型的语义解析和数值推理能力提出更高要求；在构建过程中，专业数学问题的准确翻译与本土化适配需要语言学专家与数学教育工作者的深度协作，而保持原英语数据集逻辑完整性的同时确保文化适应性，进一步增加了数据清洗与验证的复杂度。

常用场景

经典使用场景

在自然语言处理领域，gsm8k-hr数据集因其高质量的克罗地亚语数学问题解答对而备受关注。该数据集广泛应用于机器翻译模型的训练与评估，特别是在跨语言数学问题理解与生成任务中展现出显著价值。研究者通过分析模型在该数据集上的表现，能够深入探究低资源语言环境下数学推理能力的迁移机制。

解决学术问题

该数据集有效解决了小语种数学问题解答研究中数据匮乏的核心难题。通过提供7473个训练样本和1319个测试样本，为克罗地亚语数学推理任务建立了标准化基准。其细粒度的问答对结构支持端到端模型的训练，显著推动了多语言数学推理领域的实证研究进展，填补了巴尔干语言在STEM教育NLP应用中的空白。

衍生相关工作

该数据集催生了多项跨语言数学推理的重要研究，包括基于mT5的多任务学习框架和XLM-R的零样本迁移方案。相关成果发表在ACL、EMNLP等顶级会议，推动了低资源语言处理技术的发展。部分衍生工作进一步扩展了数据集的覆盖范围，构建了包含塞尔维亚语和斯洛文尼亚语的多语言数学问题数据集。

以上内容由遇见数据集搜集并总结生成