sibasmarakp/Qwen2.5-14B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

Name: sibasmarakp/Qwen2.5-14B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions
Creator: sibasmarakp
Published: 2026-04-25 14:14:46
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Qwen2.5-14B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个数学问题求解数据集，基于Minerva模型（一种专注于数学推理的模型）生成。数据集包含多个配置，每个配置对应不同的随机种子（seed 0、1、2）和聚合策略（agg_strategy-last）。主要特征包括：问题文本（problem）、标准答案（answer）、模型生成的多个完成项（completions）及其分数（scores）、预测结果（pred）以及各种聚合预测（如pred_weighted、pred_maj、pred_naive，对应不同采样数量n）。数据集还包括评估结果（evals配置），用于计算不同采样数量下的准确率（acc_naive、acc_weighted、acc_maj）。数据集旨在用于数学问题求解的模型评估和聚合策略分析，总共有272个训练示例（每个主配置）和9个评估示例（每个评估配置）。

This dataset is a mathematical problem-solving dataset generated based on the Minerva model, a model specialized in mathematical reasoning. It includes multiple configurations, each corresponding to different random seeds (seed 0, 1, 2) and aggregation strategies (agg_strategy-last). Key features include: problem text (problem), standard answers (answer), multiple model completions (completions) with their scores (scores), prediction results (pred), and various aggregated predictions (e.g., pred_weighted, pred_maj, pred_naive for different sampling counts n). The dataset also contains evaluation results (evals configurations) to compute accuracy metrics (acc_naive, acc_weighted, acc_maj) under different sampling sizes. It is designed for model evaluation and aggregation strategy analysis in mathematical problem-solving, with 272 training examples per main configuration and 9 evaluation examples per evals configuration.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

本数据集基于Qwen2.5-14B-Instruct模型与uPRM-T80-adapters结合，采用best_of_n采样策略构建。具体而言，在推理过程中，针对每个数学问题，以温度T=0.7、top_p=0.8的参数设置，生成256个候选完成序列。随后利用最后一层的聚合策略对每个序列进行评分，并记录每个候选的得分与对应的完成标记数量。数据涵盖了三个不同随机种子（seed=0,1,2）的生成结果，每个种子对应272个训练样本，从而保证了采样过程的多样性与统计可靠性。

使用方法

研究人员可通过加载数据集中的不同配置（如'updated-minerva_math--T-0.7--top_p-0.8--n-256--seed-0--agg_strategy-last'）获取原始问题与生成结果。对于推理性能分析，建议使用对应的评估配置（如以'--evals'结尾的配置），其中已按不同候选数量N（1,2,4,...,256）整理了朴素、加权和多数投票三种策略下的准确率指标。用户可直接利用这些预计算的准确率值，绘制性能曲线或对比不同策略的优劣，无需重新运行模型推理，极大简化了评估流程。

背景与挑战

背景概述

本数据集由通义千问团队构建，发布于2024年，依托Qwen2.5-14B-Instruct模型，旨在探索大语言模型在数学推理任务中的表现与评估。核心研究问题聚焦于如何通过多样化的采样策略（如温度T=0.7、top_p=0.8、每问题生成256个补全）和聚合方法（加权、多数投票、朴素聚合）来提升模型在Minerva-MATH子集上的解答准确率。该数据集包含了272个数学问题的完整采样记录，涵盖补全文本、分数、聚合结果及多种采样规模下的预测标签，为研究模型推理能力、奖励模型有效性及计算资源与性能权衡提供了宝贵的基准资源。其对大语言模型在科学和数学领域评估标准化的影响力正逐步显现，成为推动可复现推理研究的关键一环。

当前挑战

数据集所解决的领域问题在于，大语言模型在复杂数学推理中常面临答案不一致、缺乏可靠置信度评估等挑战，而该数据集通过系统化采样和多样化聚合策略，为量化模型在不同采样规模下的表现提供了框架。构建过程中，团队面临的主要挑战包括：1) 生成大量高质量补全的计算成本高昂，需平衡采样数量（256个）与实际资源消耗；2) 设计公平且稳健的聚合策略（加权、多数投票、朴素），以应对不同数学问题对模型推理鲁棒性的差异化要求；3) 通过多随机种子（seed-0/1/2）重复实验以确保统计可靠性；4) 构建评估基准以衡量不同采样策略的边际收益，从而有效指导实际部署中的效率与精度取舍。

常用场景

经典使用场景

该数据集是面向数学推理任务的大语言模型对齐与评估的经典资源。其核心用法在于，借助Qwen2.5-14B-Instruct模型在Minerva Math数据集上生成的多样本补全（temperature 0.7, top_p 0.8, n=256），结合过程奖励模型（uPRM）对每条补全路径进行逐步骤评分，最终通过加权、多数投票、朴素聚合等策略从大规模候选解中筛选出最优答案。这一范式为研究LLM在复杂数学问题上的自洽性与奖励建模提供了标准化基准平台。

解决学术问题

该数据集直击大语言模型数学推理过程中的可靠性瓶颈。传统方法依赖单一贪婪解码容易陷入局部最优，而该数据通过海量候选采样与精细化的过程奖励评估，系统性地缓解了模型在长链条推理中出现的逻辑跳跃与错误累积问题。其对比不同聚合策略（加权vs多数投票vs朴素）对最终准确率的影响，揭示了奖励信号分布与解码策略之间的深层耦合关系，为构建更鲁棒的符号推理框架提供了关键实证依据。

实际应用

在工程落地层面，该数据集可服务于数学竞赛辅导系统的自动解题引擎、STEM教育领域的智能习题批改工具，以及需要高精度数值推导的科研辅助平台。例如，企业级问答系统可利用其候选补全与评分机制，在物理、金融等涉及数学计算的场景中，通过多数投票融合多路径推理结果，显著降低因模型幻觉导致的错误率。其最佳N策略（best-of-N）可直接迁移至产品级推理管线，提升生成答案的事实一致性。

数据集最近研究