sibasmarakp/Qwen2.5-7B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

Name: sibasmarakp/Qwen2.5-7B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions
Creator: sibasmarakp
Published: 2026-04-27 20:28:37
License: 暂无描述

Hugging Face2026-04-27 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Qwen2.5-7B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个基于Minerva模型的数学问题求解数据集，包含多个配置，每个配置对应不同的模型生成参数（如温度T=0.7、top_p=0.8、生成样本数n=8或256、随机种子seed=0/1/2）和聚合策略（如last、prod、lastappendix）。数据集包含272个训练样本，每个样本包括数学问题（problem）、标准答案（answer）、模型生成的多个补全文本（completions）及其分数（scores）、预测结果（pred）以及不同预测方法（加权、多数投票、朴素）在不同样本量（从1到256）下的预测结果。此外，还有评估配置（带evals后缀），包含准确率指标（acc_naive、acc_weighted、acc_maj），用于评估模型性能。数据集主要用于研究数学问题求解中模型生成和聚合策略的效果。

This dataset is a math problem-solving dataset based on the Minerva model, containing multiple configurations, each corresponding to different model generation parameters (e.g., temperature T=0.7, top_p=0.8, number of samples n=8 or 256, random seeds seed=0/1/2) and aggregation strategies (e.g., last, prod, lastappendix). The dataset includes 272 training examples, each containing a math problem, a ground truth answer, multiple model-generated completions with their scores, prediction results, and predictions from different methods (weighted, majority vote, naive) at various sample sizes (from 1 to 256). Additionally, there are evaluation configurations (with the evals suffix) containing accuracy metrics (acc_naive, acc_weighted, acc_maj) for model performance assessment. The dataset is primarily used for studying the effects of model generation and aggregation strategies in math problem-solving.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen2.5-7B-Instruct与Qwen2.5-14B-Instruct模型，通过uPRM（Unsupervised Process Reward Model）适配器与T=0.7、top_p=0.8的采样参数，为每个数学问题生成256条候选回答。每条回答均经过过程奖励模型评分，并记录其完整性及分词数量。构建过程中采用不同的随机种子（seed=0、1、2）以确保多样性，最终形成包含原始问题、标准答案、候选回答及对应评分矩阵的完整结构。

使用方法

该数据集适用于数学推理任务的自监督学习、奖励模型微调及采样策略研究。用户可根据需求选择特定种子或聚合策略下的预测结果作为基准，也可利用完整的问题-回答对与评分数据训练过程奖励模型。数据集以HuggingFace Datasets格式组织，支持通过config_name参数加载不同种子或评估子集，便于进行对比实验与可重复性研究。

背景与挑战

背景概述

该数据集由基于Qwen2.5系列模型（7B与14B）的uPRM（统一过程奖励模型）微调适配器生成，聚焦于数学推理任务的评估与优化。数据集的创建源于大语言模型在复杂数学问题求解中面临的不确定性挑战，旨在通过多种采样策略（如温度0.7、top_p 0.8）和聚合方法（加权、多数投票、朴素选择）系统性地比较模型在不同生成规模（从1到256条补全）下的解题准确率。其核心研究问题在于探究奖励模型引导下的多样化生成与聚合策略如何提升数学推理的鲁棒性。数据集依托于Minerva Math语料构建，由阿里巴巴通义千问团队主导开发，反映了当前大模型在形式化推理评估领域的前沿探索，对推动数学相关NLP任务标准化评估具有重要意义。

当前挑战

领域层面，该数据集着力应对大语言模型在数学推理中的核心瓶颈：模型生成的解空间巨大且包含大量错误路径，单纯依靠自回归采样难以保证最终答案的正确性。研究需解决如何有效利用奖励信号（uPRM）从海量补全中甄别高置信度答案的问题。构建过程中，挑战涵盖多维度：需平衡温度与top_p参数以控制生成多样性，避免陷入局部最优；设计高效的聚合策略（如加权平均与多数投票）以整合不同规模（1至256）的采样结果；同时确保标注数据的一致性，覆盖多种数学题型（如代数、几何），并保证训练集（272例）与评估集（9例）的统计效能，避免过拟合与评估偏差。

常用场景

经典使用场景

该数据集的核心应用场景聚焦于数学推理任务中基于过程的奖励建模（Process Reward Modeling, PRM）与解码策略优化。通过为Qwen2.5系列指令微调模型在MATH数据集上生成的候选解答序列提供细粒度过程评分，研究者能够利用最佳N采样（Best-of-N）策略进行推理质量提升。典型用法涵盖对多个采样结果的加权聚合、多数投票以及朴素选择等不同解码方式的性能对比，尤其适用于探索过程奖励信号在数学问题求解中的引导作用。

解决学术问题

该数据集直接回应了大型语言模型在复杂数学推理中面临的核心挑战——如何从冗长的随机采样路径中筛选出最优解答。传统方法依赖最终答案的标量奖励，忽视了中间推理步骤的质量评估。本数据集通过提供逐步骤的过程奖励分数，使得学术界能够系统性地研究过程监督相较于结果监督的优势，并量化不同聚合策略（加权、多数投票等）在采样规模扩展时的性能增益，为理解奖励信号的分布特性与推理鲁棒性之间的关系提供了实证基础。

实际应用

在实际部署中，该数据集支撑的推理增强技术可直接赋能需要高可靠性数学解题能力的智能教育系统、自动化习题批改平台以及科研辅助工具。例如，在在线辅导场景中，利用过程奖励模型对生成的解题步骤进行实时评分，能够筛选出逻辑严谨的解答并反馈错误环节；在代码验证或金融计算等要求精确性的领域，通过Best-of-N采样与加权融合策略，可显著降低模型在开放式推理任务中的事实错误率，提升输出结果的可信度。

数据集最近研究