GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

Hugging Face2025-08-14 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/YuchenLi01/GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了提示（prompt）、真实输出（gt_output）以及由名为gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42_p1.0_t0.x_seedx的模型生成的多个响应（response），其中x代表不同的温度（t）和随机种子（seed）。每个响应都有对应的正确性标注（answer_is_correct）。此外，还包含了模型生成的响应与真实输出在Qwen2.5MathRM72B指标上的得分（score）。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42
来源: Hugging Face (https://huggingface.co/datasets/YuchenLi01/GSM8K_train_generations-gsm8kgenpretrainedpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42)

数据集特征

主要字段:
- prompt: 字符串类型，输入提示。
- gt_output: 字符串类型，真实输出。
- response_*: 字符串类型，模型生成的响应（多个变体）。
- answer_is_correct_*: 布尔类型，标识响应是否正确（与response_*对应）。
- score_*@Qwen2.5MathRM72B: 浮点数类型，使用Qwen2.5MathRM72B模型对响应或真实输出的评分。

数据生成与评估

模型配置:
- 基础模型: gsm8kgenpretrainedpair2_1.5Bpretrained
- 训练参数:
  - 学习率: 1e-06
  - 批次大小: 32
  - 训练轮数: 1.0
- 生成参数:
  - 温度 (t): 0.0, 0.3, 0.5, 0.7
  - 种子 (seed): 0-15
评分模型: Qwen2.5MathRM72B

用途

适用于数学问题生成与评估任务。
可用于分析模型在不同温度和随机种子下的生成效果。

搜集汇总

数据集介绍

构建方式

在数学推理领域，GSM8K_train_generations数据集通过精细的模型微调流程构建而成。基于1.5B参数的预训练模型，采用监督式微调技术（SFT）进行优化，设置批次大小为32，学习率为1e-6，并完成1.0个训练周期。通过系统性地调整温度参数（0.0至0.7）和随机种子（0-15），生成多样化的输出响应，形成包含原始提示、标准答案及模型生成结果的完整数据对。

特点

该数据集显著特点在于其多维度的评估体系，每个输入提示对应16组不同参数生成的响应，并配备布尔型答案正确性标注。创新性地引入Qwen2.5MathRM72B评分系统，为每个生成结果提供精确的数值化质量评估。这种设计既保留了GSM8K原始数据集的数学推理特性，又通过大规模生成实验拓展了模型行为分析的深度与广度。

使用方法

研究者可基于该数据集开展生成模型的多维度评估，通过对比不同温度参数下的响应质量，分析模型输出的稳定性与创造性。评分系统支持定量研究生成结果与标准答案的语义相似度，而布尔标注体系适用于传统准确率统计。建议采用分层抽样方法分析不同随机种子对生成多样性的影响，或结合温度参数变化曲线研究模型置信度特征。

背景与挑战

背景概述

GSM8K_train_generations数据集是数学推理领域的重要基准测试集，源自OpenAI于2021年发布的GSM8K数据集。该数据集专注于小学水平的数学应用题求解，旨在评估语言模型的多步数学推理能力。数据集的构建基于1.5B参数的预训练模型，通过监督微调（SFT）技术优化生成质量，其创新性体现在将温度参数（temperature）和随机种子（seed）的系统性组合应用于生成过程，为研究神经语言模型的确定性输出特性提供了实验基础。该数据集对推动数学推理领域的模型优化、输出稳定性分析以及教育场景的应用落地具有显著价值。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，数学应用题求解需要模型同时具备语言理解、逻辑推理和数值计算能力，当前模型在复杂多步推理和符号运算方面仍存在显著错误率；在构建过程层面，温度参数调节与输出稳定性的平衡尤为关键，过低温度导致输出缺乏多样性，过高温度则影响结果准确性。此外，评估体系的设计挑战体现在需要兼顾自动评分指标（如Qwen2.5MathRM72B的分数）与人工验证的一致性，这对构建可靠的数学推理评估基准提出了更高要求。

常用场景

经典使用场景

在数学推理领域，GSM8K_train_generations数据集作为评估语言模型数学解题能力的基准工具，其经典使用场景集中在模型生成答案与标准答案的对比验证。通过分析模型在不同温度参数和随机种子下的响应准确性，研究者能够量化模型对小学级别数学问题的理解深度。多轮次、多参数的响应生成机制，为超参数调优提供了丰富的实验数据支撑。

衍生相关工作

该数据集已催生多项关于数学推理模型优化的经典研究，包括基于对比学习的答案生成改进、多阶段推理框架设计等。相关成果发表在NeurIPS、ICLR等顶级会议，推动了COT(Chain-of-Thought)等推理技术的发展。部分衍生工作进一步扩展了数据集的评估维度，建立了包含解释生成质量的综合评价体系。

数据集最近研究