gsm8k-Qwen2.5-0.5b-instruct-rollouts

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/lenjjiv/gsm8k-Qwen2.5-0.5b-instruct-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问答对及其相关推理和评估信息。主要特征包括问题（question）、答案（answer）、Qwen2.5-0.5b-instruct模型生成的推理过程（reasonings_Qwen2.5-0.5b-instruct）、解析后的答案（parsed_answers_Qwen2.5-0.5b-instruct）、成功率（success_rate_Qwen2.5-0.5b-instruct）以及参考推理（reference_reasoning）。数据集分为训练集（6,538个样本）、验证集（935个样本）和测试集（1,319个样本），总大小约99.37MB。适用于问答系统、推理能力评估等自然语言处理任务。

创建时间：

2026-02-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称：gsm8k-Qwen2.5-0.5b-instruct-rollouts
来源地址：https://huggingface.co/datasets/lenjjiv/gsm8k-Qwen2.5-0.5b-instruct-rollouts
下载大小：97,384,622 字节
数据集大小：99,371,809 字节

数据集结构与特征

数据特征

question：字符串类型，表示问题。
answer：字符串类型，表示答案。
reasonings_Qwen2.5-0.5b-instruct：字符串列表类型，表示由 Qwen2.5-0.5b-instruct 模型生成的推理过程。
parsed_answers_Qwen2.5-0.5b-instruct：字符串列表类型，表示由 Qwen2.5-0.5b-instruct 模型解析后的答案。
success_rate_Qwen2.5-0.5b-instruct：浮点数类型，表示 Qwen2.5-0.5b-instruct 模型生成的成功率。
reference_reasoning：字符串类型，表示参考推理过程。

数据划分

训练集 (train)
- 样本数量：6,538
- 数据大小：73,317,581 字节
验证集 (val)
- 样本数量：935
- 数据大小：10,485,154 字节
测试集 (test)
- 样本数量：1,319
- 数据大小：15,569,074 字节

配置文件

配置名称：default
数据文件路径：
- 训练集：data/train-*
- 验证集：data/val-*
- 测试集：data/test-*

搜集汇总

数据集介绍

构建方式

在数学推理领域，高质量的数据集对于模型训练至关重要。gsm8k-Qwen2.5-0.5b-instruct-rollouts 基于经典的GSM8K数学问题数据集构建，通过Qwen2.5-0.5B-Instruct模型对每个问题生成多条推理路径和解析答案，并计算相应的成功率，从而形成包含原始问题、参考答案及模型生成内容的增强版本。

特点

该数据集的核心特征在于其多路径推理结构，不仅保留了原始问题与标准答案，还整合了语言模型生成的多样化推理步骤和解析结果，并附有量化的成功率指标。这种设计为研究模型的不确定性、推理一致性及错误分析提供了丰富维度，尤其适用于探索数学问题求解中的思维链泛化能力。

使用方法

研究者可利用该数据集进行数学推理模型的评估与比较，通过分析模型生成的多条推理路径与成功率，深入探究语言模型在复杂问题求解中的稳定性与可靠性。数据集已划分为训练、验证和测试子集，便于直接用于监督学习、强化学习或推理路径优化等实验场景。

背景与挑战

背景概述

在数学推理领域，大型语言模型（LLMs）的评估与优化一直是研究热点。GSM8K数据集作为小学数学应用题基准，自2021年由OpenAI团队提出以来，已成为衡量模型多步推理能力的重要工具。该数据集包含数千道高质量英文数学问题，要求模型进行逐步推理并给出最终答案，推动了如思维链（Chain-of-Thought）等技术的演进。近期，研究人员利用Qwen2.5-0.5B-Instruct模型对GSM8K进行推理轨迹采样，生成了‘gsm8k-Qwen2.5-0.5b-instruct-rollouts’数据集，旨在通过记录模型的多步推理过程与成功率，为小参数模型的推理行为分析提供结构化数据支持，进而探索高效模型在复杂任务中的内在机制。

当前挑战

该数据集核心挑战在于解决数学推理任务中模型的可解释性与鲁棒性难题。具体而言，领域问题挑战包括：模型在涉及多步算术、逻辑转换的题目中，常因错误累积或语义误解而输出错误推理链；同时，小规模模型在有限参数下维持高精度推理面临显著压力。构建过程挑战则体现为：如何确保采样得到的推理轨迹（rollouts）既覆盖多样解题路径，又保持与参考答案的一致性；此外，自动化解析模型输出并计算成功率时，需处理格式变异与数值归一化问题，这对数据清洗与评估指标的可靠性提出了较高要求。

常用场景

经典使用场景

在数学推理与语言模型评估领域，gsm8k-Qwen2.5-0.5b-instruct-rollouts数据集为研究者提供了一个标准化的测试平台。该数据集基于经典的GSM8K数学问题集，通过Qwen2.5-0.5b-instruct模型生成多步推理轨迹，其核心应用场景在于评估和比较不同语言模型在复杂数学问题上的逐步推理能力。研究者可以借助数据集中的推理链列表和成功率指标，系统分析模型在解决多步骤算术问题时的逻辑一致性与准确性，从而推动数学推理任务的模型优化与基准测试。

解决学术问题

该数据集主要针对语言模型在数学推理中的透明性与可解释性难题。通过提供模型生成的详细推理步骤与参考答案对比，它帮助学术界深入探究模型如何分解复杂问题、执行中间计算并得出最终结论。这解决了传统评估中仅关注最终答案而忽略推理过程的问题，促进了对于模型内部逻辑与错误模式的研究，为提升语言模型的可靠性与可信度提供了实证基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在推理增强的语言模型研究上。例如，基于其多步推理轨迹，研究者开发了链式思维提示技术，提升了模型在数学和逻辑问题上的表现。此外，数据集启发了对模型自我一致性、推理路径采样等方法的探索，促进了如推理蒸馏、轨迹优化等方向的发展，这些工作进一步推动了可解释人工智能与复杂问题求解领域的学术进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集