GSM8K_train_generations-Qwen2.5-1.5B-Instruct

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/YuchenLi01/GSM8K_train_generations-Qwen2.5-1.5B-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了由Qwen2.5-1.5B-Instruct模型生成的多个响应，以及对应的答案是否正确的布尔值。数据集用于评估模型在给定提示下的性能，并提供了多个种子生成的模型响应，以便进行对比和评估。

创建时间：

2025-07-16

原始信息汇总

数据集概述

基本信息

数据集名称: GSM8K_train_generations-Qwen2.5-1.5B-Instruct
数据集地址: https://huggingface.co/datasets/YuchenLi01/GSM8K_train_generations-Qwen2.5-1.5B-Instruct
下载大小: 143516207 bytes
数据集大小: 372253318 bytes
训练集样本数: 7473

数据集特征

prompt: 字符串类型，表示输入的提示文本。
gt_output: 字符串类型，表示真实输出。
response_Qwen2.5-1.5B-Instruct_p1.0_t[0.0-0.7]_seed[0-15]: 字符串类型，表示模型在不同温度和随机种子下的生成响应。
answer_is_correct_Qwen2.5-1.5B-Instruct_p1.0_t[0.0-0.7]_seed[0-15]: 布尔类型，表示模型生成响应是否正确。
score_gt_output@Qwen2.5MathRM72B: 浮点数类型，表示真实输出的评分。
score_response_Qwen2.5-1.5B-Instruct_p1.0_t[0.0-0.7]_seed[0-15]@Qwen2.5MathRM72B: 浮点数类型，表示模型生成响应的评分。

数据集配置

默认配置:
- 数据文件路径: data/train-*
- 分割: train

搜集汇总

数据集介绍

构建方式

该数据集基于GSM8K数学问题求解任务构建，采用Qwen2.5-1.5B-Instruct模型生成多样化的解答。通过设置不同的温度参数（0.0至0.7）和随机种子（0至15），模型对每个问题生成多组响应，并标注正确答案的布尔值。评分部分引入Qwen2.5MathRM72B模型进行自动化评估，形成包含原始问题、标准答案、生成响应及评分的完整数据链。

特点

数据集包含7473个数学问题的多维度求解路径，每个问题配备16种不同随机性的生成结果，覆盖确定性输出到创造性解答的完整光谱。特征字段明确区分提示文本、标准答案、模型响应及评分，其中评分维度采用浮点数值量化模型输出的数学准确性，为研究语言模型的数学推理能力提供细粒度分析基础。

使用方法

研究者可通过对比不同温度参数下的生成结果，分析模型输出的稳定性与创造性平衡。数据集支持直接加载至机器学习管道，利用布尔标注字段进行正确率统计，或基于评分字段开展模型性能的定量比较。针对数学推理研究，可提取标准答案与生成响应的文本差异，深入探究语言模型的解题逻辑缺陷。

背景与挑战

背景概述

GSM8K_train_generations-Qwen2.5-1.5B-Instruct数据集源于数学推理领域的研究需求，旨在评估和提升大型语言模型在复杂数学问题求解中的表现。该数据集基于GSM8K（Grade School Math 8K）基准，包含一系列小学水平的数学问题，要求模型不仅给出正确答案，还需展示详细的推理步骤。随着人工智能在数学教育辅助和自动解题领域的发展，此类数据集成为衡量模型逻辑推理与数值计算能力的重要工具。Qwen2.5-1.5B-Instruct模型的引入，进一步推动了开放域数学问题生成与评估的研究边界。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域问题的复杂性要求模型具备多步推理和符号运算能力，而当前模型的错误常集中于中间步骤的逻辑连贯性；构建过程中的技术难点在于生成多样化的高质量解题路径，需平衡随机采样温度参数（如t=0.3至0.7）与答案准确性之间的关系，同时通过多种子(seed)控制确保评估结果的统计显著性。评分模块Qwen2.5MathRM72B的集成虽提升了自动化评估效率，但对长推理链的细粒度评分仍存在优化空间。

常用场景

经典使用场景

在数学推理领域，GSM8K_train_generations-Qwen2.5-1.5B-Instruct数据集被广泛用于评估和提升语言模型解决复杂数学问题的能力。该数据集通过提供多样化的数学问题和对应的模型生成答案，为研究者提供了一个标准化的测试平台，用以衡量模型在数学推理任务上的表现。

衍生相关工作

基于该数据集，研究者们开展了一系列关于数学推理模型优化的经典工作。这些工作包括探索不同温度参数对模型生成答案的影响，以及开发新的评估指标来衡量模型的数学推理能力。这些研究不仅推动了数学推理领域的发展，也为其他复杂推理任务提供了借鉴。

数据集最近研究