sibasmarakp/Qwen2.5-1.5B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

Name: sibasmarakp/Qwen2.5-1.5B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions
Creator: sibasmarakp
Published: 2026-04-27 20:19:16
License: 暂无描述

Hugging Face2026-04-27 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Qwen2.5-1.5B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为updated-minerva_math，包含多个不同配置的数据子集，每个子集根据温度（T）、top_p、完成次数（n）、种子和聚合策略等参数进行区分。数据集包含problem（问题）、answer（答案）、completions（完成情况）、scores（分数）等特征，以及不同完成次数下的多种预测类型（pred_weighted、pred_maj、pred_naive）。所有数据子集均为train（训练）分割，并指定了字节数和示例数。该数据集似乎与数学问题解决相关，包含多个模型完成情况和评估结果。

The dataset named updated-minerva_math includes multiple subsets with different configurations, each distinguished by parameters such as temperature (T), top_p, number of completions (n), seed, and aggregation strategy. The dataset features include problem, answer, completions, scores, and various prediction types (pred_weighted, pred_maj, pred_naive) with different completion counts. All subsets are train splits with specified numbers of bytes and examples. The dataset appears to be related to mathematical problem-solving with multiple model completions and evaluations.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen2.5-1.5B-Instruct与Qwen2.5-14B-Instruct模型，采用uPRM（逐步过程奖励模型）与T80适配器技术构建。核心流程为对数学领域问题（源自更新版Minerva Math数据集）进行“最佳N选一”（Best-of-N）采样，通过设置温度系数T=0.7、top_p=0.8，为每个问题生成256个候选回答。随后利用uPRM对每个回答进行逐步骤评分，并选取最后步骤的分数作为聚合策略（agg_strategy-last），最终形成包含问题、标准答案、候选生成文本、对应分数及多种投票策略预测结果的结构化样本。数据集包含三个不同随机种子（seed0/1/2）的独立版本，以确保采样的多样性。

使用方法

研究者可通过加载对应配置名称（如updated-minerva_math--T-0.7--top_p-0.8--n-256--seed-0--agg_strategy-last）直接使用本数据集。训练集包含272条样本，每条样本均含有完整的问题、标准答案及256条候选项及其评分。使用时可利用completions与scores字段进行微调或评估，也可直接引用pred_weighted@256等字段作为模型最终预测。评估子集（后缀为--evals）提供了简洁的准确率汇总，适合快速验证。建议结合不同的投票策略与n值，探索uPRM评分在提升数学推理稳定性方面的潜力。

背景与挑战

背景概述

在数学推理领域中，大语言模型（LLM）的自我纠错与评估能力一直是研究的核心议题。该数据集由Qwen团队于近期构建，旨在探索基于过程奖励模型（Process Reward Model, PRM）的加权投票策略在数学问题求解中的效能。核心研究问题聚焦于如何通过多路径采样与得分聚合（如加权投票、多数投票）来提升模型对数学推理步骤的精细评估与答案准确率。数据集基于Minerva Math数据集，融合了Qwen2.5-1.5B-Instruct与14B-Instruct模型在多种温度与采样参数下的输出，为评估不同聚合策略在不同推理深度（n=8至256）下的表现提供了基准。这一工作对推动过程级监督在复杂数学推理中的应用具有重要价值，也为后续自我改进型推理模型的设计提供了关键数据支撑。

当前挑战

该数据集所应对的核心挑战在于数学推理中机器对于过程正确性的判别难题。传统答案级评估无法捕获中间步骤的逻辑漏洞，亟需构建能够细粒度建模推理路径的评估机制。数据集本身构建亦面临多重困难：首先，如何在有限的计算资源下生成足够多样且覆盖广泛错误类型的推理路径（例如以n=256的采样量进行高质量采样）是一个工程技术挑战；其次，过程奖励模型（PRM）的评分一致性难以保证，不同种子与温度设置下产生的评分分布差异需通过多轮聚合与评估来消弭；此外，聚合策略中加权投票与多数投票的优劣在不同推理场景中缺乏普适性结论，导致模型泛化能力受限。

常用场景

经典使用场景

在数学推理与复杂问题求解领域，Qwen2.5-1.5B-Instruct与Qwen2.5-14B-Instruct模型通过uPRM（统一过程奖励模型）微调与T80自适应适配器技术，产出了本数据集。其经典使用场景聚焦于对数学问题答案进行多候选生成与评估，通过为每个问题采样多达256个候选解答，并记录每条输出对应的过程奖励分数与聚合策略结果（如加权投票、多数投票），从而为研究者提供了系统研究模型在数学推理中不确定性建模、自一致性改进及解码策略优化的标准化平台。数据集以MINERVA数学题库为基础，覆盖了从基础算术到高级竞赛级问题的广泛难度梯度，尤其适合用于验证过程监督信号在提升推理路径可靠性方面的有效性。

解决学术问题

该数据集直击大规模语言模型在数学推理任务中面临的输出不稳定性与可解释性不足两大核心学术挑战。通过提供丰富的候选解与细粒度过程奖励分数，研究者能够深入剖析模型如何在不同随机种子下产生多样化的推理路径，并探索如何利用聚合策略（如加权投票与多数投票）提升最终答案的鲁棒性。数据集专门设计的评估配置（包含Naive、Weighted与Maj三种准确率指标）为对比不同解码聚合方法的效果建立了统一基准，填补了学术界在过程监督与多候选推理决策融合机制方面缺乏标准化评估资源的空白，有力推动了可信赖数学推理系统的理论发展。

实际应用

在实际应用层面，本数据集为构建高可靠性的教育技术系统提供了关键支撑。基于其过程奖励分数与聚合策略的对比结果，开发者可以直接应用于智能辅导平台中的实时答案验证模块，实现对数学作业与考试题目的自动化批改与错误推理路径定位。数据集内在的多候选生成与评分机制能够赋能问答系统采用‘生成-筛选’流水线，在医疗诊断、法律文书分析等需要严谨逻辑推导的垂直领域中，通过多数投票或加权聚合机制显著降低事实性错误率。此外，其与MINERVA数据集的无缝衔接使其成为数学竞赛级AI助教系统的理想训练与评估基石。

数据集最近研究