sibasmarakp/Qwen2.5-7B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/sibasmarakp/Qwen2.5-7B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions
下载链接
链接失效反馈官方服务:
资源简介:
这是一个更新后的Minerva数学数据集,用于评估语言模型在解决数学问题时的性能。数据集包含多个配置,每个配置基于不同的随机种子(0、1、2)生成,并使用了温度参数T=0.7、top_p=0.8的采样策略,每个问题生成256个完成文本。特征包括数学问题(problem)、标准答案(answer)、模型生成的完成文本列表(completions)、预测结果(pred)以及多种评分和聚合分数(如agg_scores)。此外,还提供了不同采样数量(从1到256)下的预测结果,包括加权预测(pred_weighted)、多数投票预测(pred_maj)和朴素预测(pred_naive),用于比较不同聚合策略的准确性。数据集还包括评估配置(evals),其中包含准确率指标(acc_naive、acc_weighted、acc_maj),以分析模型在不同设置下的表现。
This is an updated Minerva math dataset designed for evaluating the performance of language models on mathematical problem-solving. The dataset includes multiple configurations, each generated with different random seeds (0, 1, 2) and using sampling strategies with temperature T=0.7 and top_p=0.8, producing 256 completions per problem. Features include the math problem (problem), standard answer (answer), a list of model-generated completions (completions), prediction results (pred), and various scoring and aggregation scores (e.g., agg_scores). Additionally, it provides prediction results under different sampling counts (from 1 to 256), including weighted predictions (pred_weighted), majority vote predictions (pred_maj), and naive predictions (pred_naive), to compare the accuracy of different aggregation strategies. The dataset also includes evaluation configurations (evals) with accuracy metrics (acc_naive, acc_weighted, acc_maj) to analyze model performance under various settings.
提供机构:
sibasmarakp
搜集汇总
数据集介绍

构建方式
在数学推理任务的范式下,该数据集基于Qwen2.5-7B-Instruct与Qwen2.5-14B-Instruct模型构建,采用uPRM(一种基于过程奖励模型的自训练方法)与T80自适应适配器技术,对Minerva数学问题进行深度采样生成。每个配置以温度0.7、top_p 0.8、采样数量256为基准,在三种不同随机种子下重复实验,共产生三个主要数据子集及对应的评估子集。每个子集包含272道数学题,每道题对应256条模型生成的完整回答序列,并附带过程奖励模型输出的逐步骤得分与聚合得分,最终通过加权投票、多数投票等策略汇总为不同采样规模下的预测答案。
特点
该数据集的核心特色在于其多维度、多层次的结构化评价体系。每条数据不仅包含原始问题、标准答案与模型生成的多样化回答,还记录了每步推理的得分向量与聚合分数,实现了对模型推理过程与结果的双重评估。更为精细的是,数据集预置了从1到256共九种不同采样规模下的加权、多数与朴素三种聚合策略的预测结果,为研究采样规模与推理质量之间的权衡提供了直接证据。此外,三种随机种子下的独立实验增强了数据的统计稳健性,而评估子集则直接给出了不同方法在不同采样数下的准确率,极大便利了对比分析。
使用方法
研究者可通过Hugging Face Datasets库便捷加载该数据集的任一配置,如指定seed=0的主数据子集,即可获得包含问题、答案、完整回答序列及多维评分的训练分片。评估子集可直接用于横向比较不同聚合策略在特定采样数下的准确率变化。数据集特别适用于探索大语言模型在数学推理中的自一致性改进、采样策略对推理准确率的影响,以及过程奖励模型与结果奖励模型的效能差异。推荐将完整回答与得分结合,作为训练更优奖励模型或推理增强策略的基准资源。
背景与挑战
背景概述
在大型语言模型(LLM)的数学推理能力评估与提升研究中,过程奖励模型(Process Reward Model, PRM)扮演着关键角色,其通过细粒度的步骤级反馈来指导模型生成更可靠的数学解答。该数据集由Qwen团队于2024年创建,基于Qwen2.5-7B-Instruct与Qwen2.5-14B-Instruct模型,采用uPRM(unified Process Reward Model)适配器技术,在Minerva Math数据集上进行了大规模采样与评估。核心研究问题在于探索不同解码参数(温度0.7、top-p 0.8、采样数256)及多种聚合策略(加权投票、多数投票、朴素采样)对数学问题求解准确率的影响。该数据集通过跨三个随机种子的系统实验,为过程奖励模型的可靠性评估提供了丰富基准,对推动LLM在数学推理领域的精细化建模具有重要影响。
当前挑战
该数据集所解决的领域核心挑战在于提升数学推理的步骤可解释性与答案鲁棒性。传统方法仅关注最终答案,难以识别中间步骤的隐性错误,而过程奖励模型要求对每步逻辑进行精确评分,这对评分网络的设计与训练构成极大挑战。构建过程中,需对Minerva Math数据集中的272道难题进行每道256次采样,产生海量推理路径,对存储与计算资源提出严苛要求,且需确保不同种子下的结果可重复性。此外,如何设计公平的聚合策略(加权、多数、朴素)对比实验,以消除模型偏见对最终准确率测试的影响,也是构建可信评估基准的关键难点。
常用场景
经典使用场景
该数据集专门用于评估和提升大语言模型在数学推理任务中的表现,尤其在需要多步推理和精确计算的场景中。其经典使用场景是针对Minerva Math数据集中的数学问题,通过生成大量候选答案(completions)并利用过程奖励模型(PRM)进行评分,以此对比不同聚合策略(如加权投票、多数投票、朴素选择)在不同采样规模下的推理性能。研究人员可基于此数据集系统地分析温度参数、采样种子及聚合方法对最终答案准确率的影响,从而优化模型在数学推理领域的泛化能力。
衍生相关工作
该数据集衍生出的经典工作主要集中在过程奖励模型(PRM)的改进与聚合策略的深化研究。例如,学者们基于其评分结构提出了自适应采样调整算法,通过动态评估中间步骤的置信度来减少无效生成;亦有工作拓展了其框架,将多数投票与链式思维推理相结合,验证了混合策略在低资源下的鲁棒性。此外,数据集中的seed对比实验催生了关于随机性对推理一致性影响的系统性分析,为后续不确定性量化研究奠定了基准。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型在数学推理任务中的自洽性与投票策略优化,其核心在于利用Qwen2.5系列模型(7B与14B)作为基座,通过uPRM(无监督过程奖励模型)适配器生成多个采样路径,并系统评估加权投票(Weighted)、多数投票(Majority)与朴素投票(Naive)在不同采样数量(从1至256)下的推理准确率。这一方向紧密关联当前大模型推理能力研究的热点——如何在不依赖外部知识库或监督信号的前提下,通过内在的奖励信号和多样性采样提升模型对复杂数学问题的解答鲁棒性。数据集基于Minerva数学问题集,通过控制温度、top-p及随机种子构建了多组对照实验,为探索投票策略的边际收益与稳定性提供了丰富的实证基础。此工作对于推动无监督或弱监督条件下的大模型自我优化具有重要意义,也为后续构建更高效、更可靠的数学推理智能体铺平了道路。
以上内容由遇见数据集搜集并总结生成



