deepscaler-Qwen2.5-0.5b-instruct-rollouts

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/lenjjiv/deepscaler-Qwen2.5-0.5b-instruct-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含28,220个训练样本、4,032个验证样本和8,063个测试样本，总大小约790MB。数据结构包含五个核心字段：问题文本（problem）、答案文本（answer）、Qwen2.5-0.5b-instruct模型生成的推理过程列表（reasonings_Qwen2.5-0.5b-instruct）、该模型解析的答案列表（parsed_answers_Qwen2.5-0.5b-instruct）以及模型成功率指标（success_rate_Qwen2.5-0.5b-instruct）。从字段命名推断，该数据集适用于评估语言模型在问答任务中的推理能力和答案生成质量，可能用于模型性能基准测试或推理过程分析。数据以标准训练-验证-测试划分提供，每个拆分均包含精确的字节大小和样本数量统计。

创建时间：

2026-02-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称: deepscaler-Qwen2.5-0.5b-instruct-rollouts
数据集地址: https://huggingface.co/datasets/lenjjiv/deepscaler-Qwen2.5-0.5b-instruct-rollouts
下载大小: 785,692,723 字节
数据集大小: 790,738,545 字节

数据特征

数据集包含以下字段：

problem: 字符串类型，表示问题。
answer: 字符串类型，表示答案。
reasonings_Qwen2.5-0.5b-instruct: 字符串列表，表示由 Qwen2.5-0.5b-instruct 模型生成的推理过程。
parsed_answers_Qwen2.5-0.5b-instruct: 字符串列表，表示由 Qwen2.5-0.5b-instruct 模型解析出的答案。
success_rate_Qwen2.5-0.5b-instruct: 浮点数类型（float64），表示 Qwen2.5-0.5b-instruct 模型在该问题上的成功率。

数据划分

数据集分为三个部分：

训练集 (train)
- 样本数量: 28,220
- 数据大小: 553,507,175 字节
验证集 (val)
- 样本数量: 4,032
- 数据大小: 79,083,661 字节
测试集 (test)
- 样本数量: 8,063
- 数据大小: 158,147,709 字节

配置文件

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/val-*
- 测试集: data/test-*

搜集汇总

数据集介绍

构建方式

在人工智能推理任务的研究中，数据集的构建往往依赖于大规模模型生成的轨迹。deepscaler-Qwen2.5-0.5b-instruct-rollouts 数据集正是通过 Qwen2.5-0.5B-Instruct 这一轻量级指令微调模型，对一系列问题（problem）进行多步推理（rollouts）而构建的。具体而言，模型针对每个问题生成一系列推理步骤（reasonings）和相应的解析答案（parsed_answers），并计算其成功率（success_rate）。原始数据被划分为训练集、验证集和测试集，分别包含 28,220、4,032 和 8,063 个样本，确保了数据在模型评估与迭代中的有效利用。

特点

该数据集的核心特征在于其结构化的多步推理输出，为研究小型语言模型的推理能力提供了细致入微的观察窗口。每个数据样本不仅包含原始问题和最终答案，还完整记录了模型生成的一系列中间推理步骤及其对应的解析答案，使得分析模型思维链成为可能。此外，每个样本附带的成功率指标为评估模型在不同问题上的表现提供了直接的量化依据。这种设计使得数据集特别适用于研究推理过程的可靠性、错误模式以及模型自我一致性等前沿课题。

使用方法

该数据集主要服务于语言模型推理能力的分析与评估。研究人员可以加载训练、验证和测试分割，深入探究模型生成的推理链（reasonings_Qwen2.5-0.5b-instruct）与解析答案（parsed_answers_Qwen2.5-0.5b-instruct）之间的关联，并利用成功率（success_rate_Qwen2.5-0.5b-instruct）进行性能基准测试。典型应用场景包括但不限于：分析模型在不同复杂度问题上的推理失败案例，基于生成的推理轨迹训练奖励模型或验证器，或作为评估其他模型或算法在相同问题集上表现的对照基准。

背景与挑战

背景概述

在人工智能领域，特别是大型语言模型（LLM）的研究中，推理能力的评估与提升一直是核心议题。deepscaler-Qwen2.5-0.5b-instruct-rollouts数据集应运而生，旨在系统性地探索小型指令微调模型在复杂问题求解中的表现。该数据集由相关研究团队构建，聚焦于通过多步推理（rollouts）过程，分析模型在生成答案时的内部思维链（reasonings）与最终输出之间的关联。其创建反映了当前学界对模型可解释性与效率平衡的深入关切，通过量化成功率为模型优化提供了实证基础，对推动高效、透明的人工智能系统发展具有显著影响力。

当前挑战

该数据集致力于解决复杂问题求解中模型推理透明化与可靠性评估的挑战，具体体现在如何准确捕捉并评估语言模型的多步推理过程，以及区分有效推理与无效生成。在构建过程中，挑战主要源于对大规模问题-答案对进行高质量标注，确保思维链序列的逻辑连贯性与多样性，同时设计稳健的解析方法以从非结构化文本中提取结构化答案。此外，平衡数据集规模与计算资源约束，并保证评估指标（如成功率）的公正性与可复现性，亦是构建时需克服的关键难题。

常用场景

经典使用场景

在人工智能推理与决策领域，deepscaler-Qwen2.5-0.5b-instruct-rollouts数据集为研究语言模型在复杂问题求解中的思维链过程提供了系统化的实证资源。该数据集通过记录Qwen2.5-0.5b-instruct模型对各类问题的多步推理轨迹与答案解析，典型应用于评估和优化模型在数学推理、逻辑推断及常识问答等任务中的逐步推理能力。研究者可借助其结构化的reasonings与parsed_answers字段，深入分析模型推理路径的合理性与一致性，从而推动思维链提示工程与自洽性验证方法的发展。

解决学术问题

该数据集有效应对了当前大语言模型研究中关于推理透明度与可解释性的核心挑战。通过提供模型在问题求解过程中生成的详细推理步骤与对应答案，它使得研究者能够定量评估推理路径的成功率，并识别模型在复杂任务中常见的逻辑谬误或认知偏差。这为改进模型的内在推理机制、减少幻觉现象以及提升多步推理的稳健性提供了关键数据支撑，进而促进了可信人工智能与可解释机器学习领域的理论进展。

衍生相关工作

围绕该数据集衍生的经典研究工作主要集中在推理质量评估框架与模型微调策略的创新上。例如，基于其提供的success_rate指标与多步推理序列，研究者开发了新型的推理路径评分算法与一致性校验方法，用于提升模型在竞赛级数学问题与科学问答中的表现。同时，该数据集也催生了针对轻量级模型的知识蒸馏与思维链对齐技术，促使更多研究探索如何在有限参数下实现复杂推理能力的有效迁移与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集