sibasmarakp/Qwen2.5-14B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions

Name: sibasmarakp/Qwen2.5-14B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions
Creator: sibasmarakp
Published: 2026-04-25 14:14:36
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Qwen2.5-14B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Minerva数学模型的生成结果数据集，专注于数学问题求解任务。数据集包含272个数学问题及其标准答案，每个问题由模型在温度0.7、top_p 0.8的参数设置下生成256个解答样本，并采用三种随机种子（0,1,2）进行实验。特征包括问题文本、标准答案、模型生成的解答列表、预测结果、生成token数量、评分列表及聚合评分，以及在不同采样规模（1到256）下基于加权、多数投票和朴素策略的预测结果。同时包含评估配置，记录不同样本量下的三种准确率指标（朴素、加权、多数投票）。数据集主要用于评估模型在数学问题上的生成多样性和不同聚合策略的性能。

This dataset contains generation results from the Minerva math model, focusing on mathematical problem-solving tasks. It includes 272 math problems with standard answers, each with 256 generated solution samples under parameters temperature=0.7 and top_p=0.8, using three different random seeds (0,1,2). Features include problem text, ground-truth answer, list of model completions, prediction results, completion token counts, score lists and aggregated scores, as well as predictions based on weighted, majority voting, and naive strategies at different sampling scales (1 to 256). Evaluation configurations record three accuracy metrics (naive, weighted, majority) across varying sample sizes. The dataset is primarily used for evaluating generation diversity and performance of different aggregation strategies in mathematical problem-solving.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

该数据集源于对Qwen2.5-14B-Instruct模型在数学推理任务上的深度评估与优化，依托Minerva Math数据集构建。在构建过程中，针对每一道数学问题，模型在温度参数0.7、top_p值0.8的条件下，通过不同随机种子（seed 0、1、2）分别生成256条候选解答，形成丰富的completions字段。每条解答经由uPRM（Unsupervised Process Reward Model）的打分机制获得细粒度的过程分数，并通过‘last’聚合策略汇总为最终的agg_scores。数据集进一步基于加权投票、多数投票和朴素采样三种策略，从1到256条不等数量的候选解答中提取预测结果，从而系统性地评估不同推理聚合方法对数学问题解答准确率的影响。

特点

该数据集的核心特色在于其多维度、系统化的评估框架设计。数据集中不仅包含了原始问题、标准答案及模型生成的256条完整解答序列，还内嵌了基于uPRM的过程级评分向量，为深入分析模型推理逻辑的每个步骤质量提供了可能。尤为突出的是，数据集中预计算了在加权、多数与朴素三种聚合策略下，分别从1、2、4、8、16、32、64、128直至256条候选解答中的预测结果，构成一个完整的缩放行为研究图谱。同时，配备的evals子配置记录了在不同候选数量及聚合策略下的准确率变化曲线，极大便利了研究者对模型推理能力、采样效率与聚合方法之间关系的探索。

使用方法

研究者可直接通过HuggingFace Datasets库加载该资源，选用指定随机种子对应的子配置（如seed-0）进行训练或分析。对于希望复现或扩展聚合策略研究的场景，可依据problem、answer及completions字段进行自定义推理路径分析，利用scores字段中的过程分数开展uPRM变体或奖励模型的消融实验。evals子配置则适合快速评估不同聚合方法在不同采样规模下的性能表现，为在计算资源受限条件下选择最优推理策略提供实证依据。该数据集默认仅包含训练集，总计272条样本，兼顾了评估的统计学意义与数据管理的可操作性。

背景与挑战

背景概述

该数据集由Qwen2.5-14B-Instruct模型驱动生成，基于uPRM（Unsupervised Process Reward Model）框架，聚焦于数学推理任务的细粒度评估与优化。创建时间约为2024年，由通义千问团队主导研究，核心问题在于如何通过过程奖励建模提升大型语言模型在复杂数学问题上的推理能力。数据集以Minerva-Math为基础，通过采样256条候选推理路径并记录加权、多数投票及朴素投票等聚合策略下的预测结果，为模型自监督学习提供了丰富的标注资源。其影响力体现在为大模型在数学领域的推理可解释性与鲁棒性评估树立了新标准。

当前挑战

该数据集核心挑战在于解决数学推理过程中过程监督信号的稀疏性与噪声问题。领域层面，传统结果监督难以捕捉中间步骤的逻辑错误，而uPRM需在无人工标注下自动识别正确推理路径，对模型自我评估能力要求极高。构建过程中，面临多采样策略（如温度0.7、top_p 0.8）下256条推理路径的平衡性难题，以及不同随机种子（seed 0-2）导致的结果不一致性；同时，数据规模仅272条训练样本，对模型泛化能力构成制约，且聚合策略（加权、多数投票）在长链推理中的有效性需进一步验证。

常用场景

经典使用场景

该数据集的核心应用在于评估和改进大语言模型在数学推理任务中的表现。通过为Qwen2.5-14B-Instruct模型生成多达256条针对Minerva数学问题的补全，并记录每一条补全对应的分数、加权投票、多数投票和朴素投票结果，研究者可以系统性地分析不同采样策略（温度0.7、top_p 0.8）和聚合方法对解题准确率的影响。该数据集特别适合作为基准，用以比较多种过程奖励模型（PRM）或结果奖励模型在数学推理领域的强化学习与自我一致性训练效果。

解决学术问题

该数据集解决了数学推理任务中如何评估与提升模型自主纠错和一致性输出能力的学术难题。通过提供多种子（seed 0、1、2）下大规模采样补全及其对应的多种投票聚合结果（加权、多数、朴素），它使得研究人员能够量化探讨不同随机性设定与聚合策略对最终答案准确率的贡献。这推进了对大语言模型在复杂符号推理中鲁棒性与自我一致性机制的理解，为过程监督和结果监督方法的对比提供了系统性的实验基础。

衍生相关工作

该数据集衍生了一系列围绕过程奖励模型（PRM）与自我一致性增强策略的经典工作。研究者常基于其提供的多轮采样与评分记录，探索如何优化加权投票机制以改善少样本文本生成任务的性能。同时，该数据集也推动了关于不同温度参数与top_p截断值对模型错误修正行为影响的研究，并催生了评估数学推理模型在多样化聚合策略下泛化能力的系统性实验框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集