gsm8k-platinum

Hugging Face2025-03-11 更新2025-03-12 收录

下载链接：

https://huggingface.co/datasets/madrylab/gsm8k-platinum

下载链接

链接失效反馈

官方服务：

资源简介：

GSM8K-Platinum是GSM8K测试集的修订版，GSM8K是一个包含小学生数学文字问题的数据集，旨在提供对数学推理能力的更准确评估。修订过程中，对每个示例运行了多种前沿模型，并对至少一个模型出错的示例进行了手动检查。对错误标记的示例修订了标签，并移除了判断为编写不当的问题。

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

GSM8K-Platinum数据集的构建，是在原有GSM8K数据集的基础上，通过运用前沿模型对每个实例进行标注，并对至少一个模型出现错误的实例进行人工审查。人工审查过程中，对错误标注的实例进行修正，并移除问题陈述模糊不清的实例，从而提供一个更为精确的数学推理能力评估。

特点

该数据集的特点在于，它提供了一个更为干净和准确的数据集，通过人工审查和修正，减少了标签噪声，提高了数据集的质量。它保留了原始GSM8K数据集的结构，可以作为直接替代品使用，适用于评估大型语言模型在数学词汇问题上的推理能力。

使用方法

使用GSM8K-Platinum数据集时，可以直接通过HuggingFace的datasets库加载。用户首先需要安装datasets库，然后通过简短的代码即可加载测试集，进行模型训练或评估。数据集包含了问题、答案和清理状态等信息，方便用户进行进一步的数据处理和分析。

背景与挑战

背景概述

GSM8K-Platinum数据集是在2023年由MadryLab团队修订的，旨在为数学推理能力提供一个更为精确的评估工具。该数据集是对原有的GSM8K数据集的全面测试集进行修订，通过前沿模型对每个独立样本进行分析，并对至少一个模型出现错误的样本进行人工审查。修订过程中，对错误标记的样本进行标签修正，并移除问题陈述含糊不清的样本。GSM8K-Platinum的创建，不仅提供了一个可以替代原有gsm8k数据集的版本，而且通过减少标签噪声，促进了机器学习模型在数学字谜问题解决上的可靠性提升，对评估大型语言模型在数学推理任务上的表现具有显著影响。

当前挑战

GSM8K-Platinum数据集面临的挑战主要包括：1)解决数学字谜问题领域中的问题，如如何确保模型能够准确理解和解决具有多样性和复杂性的数学问题；2)在构建过程中，数据集的修订和清洗工作，如如何有效识别和修正标签错误，以及如何界定和移除问题陈述不清的样本，以保证数据集的质量和准确性。

常用场景

经典使用场景

在数学教育评估领域，GSM8K-Platinum数据集作为一项精准的评测工具，其经典使用场景主要在于评估大型语言模型对小学数学问题的理解和解决能力。通过该数据集，研究者能够深入分析模型在数学推理任务上的表现，进而提升模型在解决实际问题时的可靠性。

解决学术问题

GSM8K-Platinum数据集的推出，解决了传统数学问题数据集中存在的标签噪声问题，如错误标注或不明确的题目，这些问题往往导致模型性能评估的不准确。该数据集通过人工审核和修订，提高了数据质量，使研究者能够更加准确地评估模型的性能，推动了机器学习领域对可靠性和精准评估标准的追求。

衍生相关工作

基于GSM8K-Platinum数据集的研究，衍生出了一系列相关工作，如模型准确性验证、数学推理算法的开发和优化等。这些工作不仅推动了数学教育评估领域的发展，也为机器学习在数学问题解决上的应用提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集