gsm8k-fix

Name: gsm8k-fix
Creator: HKUST NLP Group
Published: 2024-07-24 08:43:01
License: 暂无描述

Hugging Face2024-07-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/hkust-nlp/gsm8k-fix

下载链接

链接失效反馈

官方服务：

资源简介：

GSM8K (Fixed) 数据集是原始 GSM8K 数据集的修正版本，包含多个特征如 'id', 'query', 'query4test', 'query_src_agent', 'query_src_method', 'domain', 'stage', 'gt_ans', 'query_metadata', 'resp', 'resp_src_agent', 'resp_src_method', 'ans', 'ans_correct', 'ration_type', 'proc_correct_prob', 和 'resp_metadata'。该数据集用于文本生成任务，并标记为 'mathematics'。数据集包含一个训练分割，有 8792 个示例。README 文件还提到，错误标签是通过检查强大的 DeepSeekMath-7B-RL 模型的不合理低通过率来修正的。目前仅训练集已被修正。

GSM8K（Fixed）数据集是原始GSM8K数据集的修订版本，包含'id'、'query'、'query4test'、'query_src_agent'、'query_src_method'、'domain'、'stage'、'gt_ans'、'query_metadata'、'resp'、'resp_src_agent'、'resp_src_method'、'ans'、'ans_correct'、'ration_type'、'proc_correct_prob'及'resp_metadata'等多项特征。该数据集适用于文本生成任务，领域标记为'mathematics'（数学领域）。数据集包含一个训练子集，共计8792条样本。README文件中提及，其错误标签是通过校验性能强劲的DeepSeekMath-7B-RL模型的异常低通过率完成修正的，目前仅训练子集已完成修正。

提供机构：

HKUST NLP Group

创建时间：

2024-07-24

原始信息汇总

数据集概述

数据集信息

特征字段

id: 字符串类型
query: 字符串类型
query4test: 布尔类型
query_src_agent: 字符串类型
query_src_method: 字符串类型
domain: 字符串类型
stage: 字符串类型
gt_ans: 字符串类型
query_metadata: 结构体类型，包含以下字段：
- n_step: 64位整数类型
resp: 字符串类型
resp_src_agent: 字符串类型
resp_src_method: 字符串类型
ans: 字符串类型
ans_correct: 布尔类型
ration_type: 字符串类型
proc_correct_prob: 64位浮点数类型
resp_metadata: 结构体类型，包含以下字段：
- n_step: 64位整数类型

数据分割

train: 包含8792个样本，总大小为5847311字节

数据集大小

下载大小: 2614433字节
数据集大小: 5847311字节

配置

default: 包含训练数据文件路径为data/train-*

许可证

MIT许可证

任务类别

文本生成

语言

英语

数据集名称

GSM8K (Fixed)

数据集规模

1K<n<10K

数据集修复

该数据集修复了GSM8K数据集中的一些错误标签。
错误标签通过深入分析不合理低通过率的DeepSeekMath-7B-RL模型发现，并进行了修复。
修复仅针对训练集进行。

搜集汇总

数据集介绍

构建方式

gsm8k-fix数据集是基于GSM8K数据集的一个修正版本，旨在解决原数据集中存在的标签错误问题。该数据集的构建过程通过深入分析DeepSeekMath-7B-RL模型在训练集上的低通过率，识别并修正了多个错误的标签。修正过程主要针对训练集，通过手动检查和修正错误的答案和响应，确保数据的准确性和可靠性。

特点

gsm8k-fix数据集的特点在于其专注于数学问题的生成与解答，涵盖了多个领域的数学问题，如代数、几何和基础算术等。每个数据点包含了问题的详细描述、解答过程、正确答案以及相关的元数据，如问题的步骤数和来源方法。数据集的结构化设计使得其适用于文本生成任务，尤其是数学问题的自动解答和推理。

使用方法

gsm8k-fix数据集主要用于训练和评估数学问题解答模型，特别是那些基于文本生成的模型。用户可以通过加载数据集并访问其训练集，使用其中的问题和解答进行模型训练。此外，该数据集还可用于数据合成项目，如DART-Math项目，通过结合其他数据源生成更丰富的数学问题解答数据。使用该数据集时，建议重点关注修正后的训练集，以确保模型的训练数据准确无误。

背景与挑战

背景概述

GSM8K-Fix数据集是基于GSM8K数据集的一个修正版本，旨在解决原数据集中存在的标签错误问题。GSM8K数据集最初由OpenAI发布，专注于小学水平的数学问题求解，广泛应用于自然语言处理领域的文本生成任务，尤其是数学推理和问题求解。该数据集的创建时间为2021年，主要研究人员来自OpenAI，其核心研究问题是通过自然语言处理技术解决数学问题的自动生成与求解。GSM8K-Fix数据集通过修正原数据集中的错误标签，提升了数据质量，进一步推动了数学问题求解模型的研究与应用。

当前挑战

GSM8K-Fix数据集面临的挑战主要包括两个方面。首先，在领域问题方面，尽管数据集修正了部分错误标签，但数学问题的多样性和复杂性仍然对模型的泛化能力提出了较高要求，尤其是在多步推理和逻辑推导方面。其次，在构建过程中，修正错误标签需要依赖强大的预训练模型（如DeepSeekMath-7B-RL）进行错误检测，这一过程不仅耗时，还可能存在遗漏或误判的风险。此外，数据集的修正范围目前仅限于训练集，测试集的错误标签尚未得到全面修正，这可能导致模型在评估阶段的表现不够准确。

常用场景

经典使用场景

gsm8k-fix数据集主要用于数学问题的自动求解和推理任务。该数据集包含了大量的小学数学问题及其解答，涵盖了从基础算术到复杂逻辑推理的多种题型。研究人员通常使用该数据集来训练和评估自然语言处理模型在数学问题求解中的表现，尤其是在多步推理和复杂问题分解方面的能力。

衍生相关工作

gsm8k-fix数据集衍生了许多相关研究工作，特别是在数学问题求解和推理任务方面。例如，基于该数据集的🎯DART-Math项目通过数据合成技术进一步扩展了数据集的规模和多样性。此外，许多研究团队利用该数据集开发了新的推理模型，如DeepSeekMath-7B-RL，这些模型在数学问题求解任务中表现出色，推动了自然语言处理领域的发展。

数据集最近研究