GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

Hugging Face2025-11-12 更新2025-11-13 收录

下载链接：

https://huggingface.co/datasets/dporeasoning/GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估和比较不同模型的性能，包括prompt（提示）、gt_output（真实输出）、不同模型生成的response（响应）和对应的answer_is_correct（答案是否正确）。每个response都有对应的模型参数和训练信息，以及模型生成响应与真实输出的评分。

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

数据集名称: GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42
来源: https://huggingface.co/datasets/dporeasoning/GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

数据集特征

核心字段

prompt: 输入提示文本（字符串类型）
gt_output: 真实输出答案（字符串类型）

模型生成结果字段

包含多个模型生成结果对，每个结果对包含：

response_xxx: 模型生成的响应文本（字符串类型）
answer_is_correct_xxx: 答案正确性判断（布尔类型）

评分字段

包含多个评分结果：

score_gt_output@Qwen2.5MathRM72B: 真实输出的评分（浮点数类型）
score_response_xxx@Qwen2.5MathRM72B: 各模型生成响应的评分（浮点数类型）

实验配置

模型架构: gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1
训练参数:
- 批次大小: 32
- 学习率: 1e-06
- 训练轮数: 1.0
生成参数:
- 温度参数: 0.0, 0.3, 0.5, 0.7
- 随机种子: 0-15
- 概率参数: 1.0

评估指标

使用Qwen2.5MathRM72B模型进行评分
提供答案正确性的人工标注结果
包含多轮不同参数配置下的生成结果对比

搜集汇总

数据集介绍

构建方式

在数学推理研究领域，该数据集基于GSM8K训练集构建，通过预训练语言模型生成多样化的数学问题解答。采用特定架构的1.5B参数模型进行监督微调，配置了32的有效批次大小和1e-6的学习率，经过完整训练周期后生成响应数据。每个原始问题提示对应多个生成答案，并通过随机种子和温度参数控制生成过程的随机性，形成系统化的对比研究样本。

特点

该数据集的核心特征在于其多维评估体系，每个问题不仅包含标准答案，还配备了16组不同生成条件下的模型响应。特征字段明确标注了温度参数从0.0到0.7的梯度变化，以及16个随机种子的重复实验记录。特别集成了Qwen2.5MathRM72B奖励模型的精细评分，提供连续数值的质量评估，同时包含布尔类型的答案正确性标注，构建了完整的自动化评估框架。

使用方法

研究人员可借助该数据集进行数学推理模型的系统性评估，通过对比不同温度参数和随机种子下的生成效果，分析模型输出的稳定性和多样性。奖励模型评分可用于训练偏好模型或进行强化学习优化，布尔标注支持准确率统计等传统评估指标。该数据集特别适用于研究生成超参数对数学问题求解质量的影响，为模型调优提供实证依据。

背景与挑战

背景概述

在数学推理领域，语言模型的性能评估一直依赖于高质量基准数据集。GSM8K_train_generations数据集基于OpenAI于2021年发布的GSM8K小学数学应用题数据集构建，该数据集包含8500道人工标注的数学推理题目。作为衍生数据集，其核心研究聚焦于探索预训练语言模型在数学推理任务中的微调策略与生成能力，通过系统化比较不同温度参数与随机种子下的模型输出质量，为数学推理领域的模型优化提供实证依据。该数据集通过量化分析模型生成答案的准确性与一致性，显著推进了可解释数学推理研究的发展进程。

当前挑战

数学推理任务要求模型具备多步骤逻辑推导与数值计算能力，当前面临生成答案的语义一致性维护与算术运算准确性双重挑战。在数据集构建过程中，需平衡生成多样性评估与标准答案对齐的复杂度，同时确保不同超参数配置下输出结果的可比性。模型响应质量评估依赖强监督信号，但自动评分机制对数学表达式的语义理解仍存在局限性，这为构建可靠评估体系带来技术障碍。

常用场景

经典使用场景

在数学推理领域，该数据集作为评估语言模型数学问题解决能力的基准工具，通过提供多样化的小学数学应用题及其标准答案，系统检验模型在复杂逻辑推理和多步计算中的表现。其结构化的问题表述与精确的答案验证机制，为量化模型数学能力提供了可靠依据。

衍生相关工作

基于该数据集衍生的研究催生了链式思维提示技术，显著提升了复杂问题的分解能力。后续工作发展了数学定理证明的神经符号方法，并推动了多模态数学推理模型的创新，为人工智能的逻辑推理能力开辟了新路径。

数据集最近研究