sibasmarakp/Qwen2.5-1.5B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions

Name: sibasmarakp/Qwen2.5-1.5B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions
Creator: sibasmarakp
Published: 2026-04-25 14:05:09
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Qwen2.5-1.5B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Minerva数学模型生成的数学问题求解数据，包含多个配置版本（不同随机种子和评估策略）。每个配置包括问题文本、标准答案、模型生成的多个补全结果，以及基于不同策略（如加权、多数投票、朴素方法）的预测结果和评估分数。数据集可能用于分析模型在数学问题上的生成性能、比较不同聚合策略的效果，或用于模型评估和优化。特征涵盖问题、答案、补全列表、预测字符串、完成令牌数、分数列表和聚合分数等，并提供了不同数量样本（如@1、@2等）下的预测结果。

This dataset is generated based on the Minerva math model and contains mathematical problem-solving data with multiple configuration versions (different random seeds and evaluation strategies). Each configuration includes problem text, standard answers, multiple model-generated completions, and predictions based on various strategies (e.g., weighted, majority voting, naive methods), along with evaluation scores. The dataset is likely used for analyzing model generation performance on mathematical problems, comparing the effects of different aggregation strategies, or for model evaluation and optimization. Features cover problem, answer, completion lists, prediction strings, completion tokens, score lists, and aggregated scores, and provide prediction results under different sample sizes (e.g., @1, @2, etc.).

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

在数学推理领域，过程奖励模型（PRM）的构建对于提升大语言模型的链式思维质量至关重要。该数据集基于Qwen2.5-1.5B-Instruct与Qwen2.5-14B-Instruct两大模型，通过统一的PRM（uPRM）框架，以温度T=0.7、top_p=0.8的采样参数，为更新版MinervaMath数据集中的272道数学问题各自生成256条完整解题链。每条解题链均经由PRM逐步骤评分，并采用最后token聚合策略（agg_strategy-last）计算最终得分，从而构建出包含问题、答案、解题链、预测结果及多粒度聚合分数的结构化数据。数据集以三个不同随机种子（seed-0、1、2）重复构建，确保了统计稳健性。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集。由于数据集包含多个配置子集，加载时需要指定具体的config_name，例如选择'updated-minerva_math--T-0.7--top_p-0.8--n-256--seed-0--agg_strategy-last'以获取某一随机种子下的完整样本，或选择对应'--evals'子集获取聚合评估结果。加载后，每条样本的'completions'字段包含了256条候选解题链，'scores'字段为对应的步骤级评分矩阵，而'pred_weighted@k'、'pred_maj@k'等字段则直接提供了不同策略下的最终答案，便于直接用于基准测试或进一步分析。

背景与挑战

背景概述

该数据集由通义千问团队在近期构建，旨在支撑基于过程奖励模型（Process Reward Model, PRM）的数学推理能力提升研究。核心研究问题聚焦于如何通过细粒度的过程监督信号，引导大规模语言模型在复杂数学推理任务中生成更准确、更可解释的解题路径。数据集以Minerva Math问题集为基准，利用Qwen2.5-1.5B-Instruct与Qwen2.5-14B-Instruct模型生成多样化的解题轨迹，并通过统一的过程奖励模型（uPRM）为每个推理步骤分配实数值分数，从而构建出包含问题、答案、多组候选完成序列及其对应分数的高质量训练与评估资源。这一数据集的设计思路深刻影响了后续将过程监督与强化学习相结合的研究范式，为提升语言模型在数学领域的形式化推理能力提供了可复现的基准平台，在学术界与工业界均引起了广泛关注。

当前挑战

在领域问题层面，该数据集直面大规模语言模型在数学推理中面临的逻辑连贯性不足与错误累积的严峻挑战。传统的答案级奖励信号难以精准定位推理链条中的局部错误，而过程奖励模型虽能提供步骤级反馈，却需要海量、高质量的人工标注数据作为支撑，数据获取成本极高。在构建过程中，其面临的核心挑战包括：如何从有限的数学问题中自动生成多样且语义正确的解题轨迹，避免因采样温度过高引入噪声或过低导致模式坍缩；如何聚合多个奖励模型输出获得稳健的分数估计，以缓解单一模型偏差对下游任务的影响；以及如何在不同随机种子、不同采样策略下保证数据的统计一致性与泛化能力，从而为过程监督的强化学习提供可靠的初始策略分布。

常用场景

经典使用场景

在自然语言处理与数学推理的交叉领域，该数据集为评估和改进大型语言模型的数学解题能力提供了关键资源。其典型用途在于训练与测试基于过程奖励模型（PRM）的强化学习算法，研究者可利用其中包含的多条候选解答（completions）及其对应的过程级评分（scores），探索如何通过加权聚合、多数投票等策略从模型生成的多个输出中提取最准确的最终答案。该数据集特别适用于需要精细评估模型逐步推理质量的场景，例如在MATH等复杂数学基准上对比不同采样温度与top-p参数下的模型表现。

解决学术问题

该数据集直面大型语言模型在符号推理与数学问题求解中存在的核心困境：即如何有效利用过程监督信号来提升模型的内在推理可靠性。通过提供多种子（seed）条件下的详细评分数据，它使学术界得以系统研究奖励稀疏性与过程奖励模型训练效率之间的关联，以及不同聚合方法（如加权投票与多数投票）对模型最终生成结果准确率的影响。这些研究推动了从单纯追求答案正确性向关注推理过程严密性的范式转变，为构建更稳健的数学推理系统奠定了数据基础。

实际应用

在工程实践中，该数据集可服务于构建面向数学教育的智能辅导系统，通过对学生交互过程中产生的多种解题路径进行实时评分与优选，实现个性化反馈。此外，在自动化科学文献审阅与复杂计算验证领域，该数据集训练的过程奖励模型能够筛选出最合理的推导链，辅助提高算法生成解决方案的可靠性与可解释性。金融建模与优化算法设计等需要严格逻辑推导的行业亦能从中受益，借助其数据增强模型的错误检测与自我修正能力。

数据集最近研究