gsm8k_extended_subset

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/Psychometrics/gsm8k_extended_subset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题、原始答案、最终答案、推理步骤及其数量等字段。测试集包含300个示例，数据集总大小为171238.01104972375字节。

创建时间：

2025-07-15

原始信息汇总

数据集概述

基本信息

数据集名称: gsm8k_extended_subset
发布者: Psychometrics
下载大小: 103756字节
数据集大小: 171238.01104972375字节

数据集结构

特征:
- question: 字符串类型，表示问题内容。
- raw_answer: 字符串类型，表示原始答案。
- final_answer: 字符串类型，表示最终答案。
- reasoning_steps: 字符串类型，表示推理步骤。
- num_reasoning_steps: 整型，表示推理步骤的数量。

数据划分

划分名称: test
样本数量: 300
字节大小: 171238.01104972375

配置信息

配置名称: default
数据文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在数学推理领域的数据集构建中，gsm8k_extended_subset基于原始GSM8K数据集进行了扩展和优化，通过精心筛选和标注过程，形成了包含300个测试样本的高质量子集。每个样本不仅保留了原始的问题和答案，还额外增加了推理步骤的详细文本记录和步骤数量统计，确保了数据的丰富性和结构性。

特点

该数据集的核心特点在于其多维度的特征设计，涵盖了问题文本、原始答案、最终答案、推理步骤字符串以及推理步骤数量等关键属性，为数学问题求解提供了全面的信息支持。这种结构化的特征组织方式有助于深入分析模型在复杂推理任务中的表现，并支持多角度的评估和研究。

使用方法

研究人员和开发者可通过加载该数据集，直接访问测试分割中的样本，用于评估数学推理模型的性能，特别是在多步骤推理和答案生成方面。数据集的标准格式便于集成到现有的机器学习流程中，支持模型训练、验证以及误差分析等应用场景。

背景与挑战

背景概述

数学推理作为自然语言处理领域的关键研究方向，其发展历程中涌现出多个具有里程碑意义的数据集。gsm8k_extended_subset数据集基于2021年OpenAI团队发布的GSM8K基准构建，专注于多步骤数学应用题求解。该数据集通过扩展原始样本的推理路径标注，为研究社区提供了更丰富的模型解释性分析基础，显著推动了可解释人工智能在数学推理任务中的应用深度。

当前挑战

数学应用题求解面临多步骤逻辑推理与数值计算的协同挑战，要求模型同时具备语言理解和数学运算能力。在数据集构建过程中，需要确保推理步骤的完整性和答案的精确性，这涉及复杂的人工验证流程。标注者必须严格遵循数学逻辑规范，避免出现推理链断裂或计算错误，这种高精度要求使得数据质量控制成为核心难点。

常用场景

经典使用场景

在数学推理与自然语言处理交叉领域，gsm8k_extended_subset数据集被广泛用于评估模型的多步骤数学问题求解能力。研究者通常利用该数据集测试模型从自然语言问题中提取数学关系、执行逻辑推理并生成最终答案的性能，尤其在检验链式推理和中间步骤合理性方面具有显著价值。

衍生相关工作

基于该数据集衍生的经典工作包括思维链提示工程框架，其通过显式生成推理步骤显著提升模型性能。后续研究进一步发展为自一致性推理、多智能体协同验证等范式。这些工作共同构成了可解释人工智能的重要分支，推动了推理基准从结果导向向过程验证的范式转变。

数据集最近研究