sibasmarakp/Llama-3.1-8B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

Name: sibasmarakp/Llama-3.1-8B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions
Creator: sibasmarakp
Published: 2026-04-27 19:45:59
License: 暂无描述

Hugging Face2026-04-27 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Llama-3.1-8B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

下载链接

链接失效反馈

官方服务：

资源简介：

提供的README内容中没有直接描述数据集。然而，根据列出的特征和配置，这似乎是一个与数学问题解决相关的数据集，可能由名为Minerva的模型生成或评估。数据集包括具有不同参数（例如温度、top_p、种子、聚合策略）的各种配置，以及问题陈述、答案、完成情况、分数和各种预测类型等特征。数据集被分成具有不同示例数量和大小的训练集。

The provided README content does not contain a direct description of the dataset. However, based on the features and configurations listed, it appears to be a dataset related to mathematical problem-solving, possibly generated or evaluated by a model named Minerva. The dataset includes various configurations with different parameters (e.g., temperature, top_p, seed, aggregation strategies) and features such as problem statements, answers, completions, scores, and various prediction types. The dataset is split into training sets with varying numbers of examples and sizes.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

该数据集构建于数学推理任务背景下，依托Llama-3.1-8B-Instruct与Qwen2.5-14B-Instruct两个大型语言模型，通过uPRM（统一的进程奖励模型）适配器进行优化，并采用best-of-n采样策略生成多个候选解。具体而言，针对updated-minerva_math数据集中的每个数学问题，模型在固定温度0.7、top_p 0.8及种子参数的设定下，独立采样256条完成序列，每条序列附带由uPRM模型评估的逐步骤得分。所有完成结果及对应的聚合得分被系统性地记录，形成结构化的推理轨迹与评分矩阵。

使用方法

研究者可通过Hugging Face Datasets库加载该数据集，并根据配置名称（如updated-minerva_math--T-0.7--top_p-0.8--n-256--seed-0--agg_strategy-last）选取特定随机种子对应的子集。数据加载后，可访问每个样本的problem、answer、completions、scores及多种前缀的预测字段。利用pred_weighted@N、pred_maj@N与pred_naive@N等字段，用户能够直接比较不同聚合策略在不同采样规模下的解码效果，或基于得分与完成序列进行更深入的推理模式分析。评估子集则可直接用于绘制准确率曲线，验证模型在best-of-n框架下的一致性表现。

背景与挑战

背景概述

该数据集由研究者基于Llama-3.1-8B-Instruct与Qwen2.5-14B-Instruct模型构建，核心研究问题在于提升大语言模型在数学推理任务中的表现可靠性。通过引入uPRM（隐式过程奖励模型）与Best-of-N采样策略，数据集旨在探索如何利用多候选生成与加权投票机制来优化模型在复杂数学问题上的准确率。数据集创建时间可追溯至2024年末至2025年初，其影响力体现在为数学领域的推理评估提供了一种融合奖励模型与多样化采样策略的标准化基准，推动了神经符号计算与生成式AI在严谨推理任务中的交叉应用。

当前挑战

该数据集的构建面临双重挑战。其一，受限于传统过程奖励模型需要显式步骤标注的问题，研究者需解决如何从隐式反馈中提炼有效奖励信号以指导模型在数学推理中避免逻辑谬误。其二，在技术实现层面，如何平衡采样多样性（n=256）与计算效率是一大难题，同时整合多个种子（seed）下的加权、多数投票与朴素策略来稳定预测性能还需克服评分聚合中的噪声累积。此外，跨模型（Llama与Qwen）的适配器微调也增加了架构兼容性与训练稳定性的复杂性。

常用场景

经典使用场景

该数据集聚焦于大语言模型在数学推理与答案生成领域的多候选回答聚合与评估。经典的用法是提供一道数学问题及其标准解答，以及由模型生成的多个候选回答（completions）和过程奖励模型（PRM）为每个回答逐步骤分配的分数。研究者可通过加权、多数投票或朴素平均等聚合策略，从海量候选中选取最佳预测答案，并观察不同候选数量（n值）对最终精度的影响。数据集设计了多种种子和配置，便于在不同随机条件下开展稳健的实验对比。

解决学术问题

该数据集解决了大语言模型在数学推理任务中如何有效利用过程监督信号提升回答准确性的学术问题。传统上，模型仅依赖最终答案的正确性进行训练，忽视了中间推理步骤的关键信息。通过引入过程奖励模型（uPRM）为每个生成步骤打分，该数据支持研究如何从多个候选推理路径中基于步骤级质量筛选最优解。这有助于探索过程监督相较于结果监督的优势，以及不同聚合方法对最终回答质量的提升潜力，对强化模型在复杂推理任务中的可靠性与可解释性具有重要意义。

实际应用

在实际应用中，该数据集可被用于优化数学辅导系统、智能解题助手以及自动化考试评分等场景。借助过程奖励与多候选聚合技术，系统能够从模型生成的多种解题思路中自动选取最合理、最准确的解答，显著提升对复杂数学问题的响应质量。此外，不同n值下的精度评估结果可为部署时平衡计算资源与性能提供参考依据，从而在真实教育科技产品中实现高效、可靠的数学推理支持。

数据集最近研究