sibasmarakp/Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

Name: sibasmarakp/Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions
Creator: sibasmarakp
Published: 2026-04-27 19:49:31
License: 暂无描述

Hugging Face2026-04-27 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-best_of_n-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含基于Minerva数学模型的数学问题求解数据，涵盖多个配置（如不同种子、聚合策略和生成数量）。每个样本包括原始问题（problem）、标准答案（answer）、模型生成的多个完成（completions）及其对应的分数（scores）、预测结果（pred）以及不同策略（加权、多数投票、朴素）在不同生成数量（如1、2、4、8、16、32、64、128、256）下的预测结果。此外，还提供评估配置，包含不同生成数量下的准确率指标（acc_naive、acc_weighted、acc_maj）。数据集旨在用于分析模型在数学问题求解中的生成多样性和性能评估。

This dataset contains mathematical problem-solving data based on the Minerva model, covering multiple configurations (e.g., different seeds, aggregation strategies, and generation counts). Each sample includes the original problem, the standard answer, multiple model-generated completions with corresponding scores, prediction results, and predictions under different strategies (weighted, majority voting, naive) across various generation counts (e.g., 1, 2, 4, 8, 16, 32, 64, 128, 256). Additionally, evaluation configurations are provided, containing accuracy metrics (acc_naive, acc_weighted, acc_maj) for different generation counts. The dataset is designed for analyzing generation diversity and performance evaluation in mathematical problem-solving tasks.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

该数据集源于对Llama-3.2-1B-Instruct与Qwen2.5-14B-Instruct模型进行uPRM微调后所获得的适配器，通过best_of_n采样策略构建而成。具体而言，针对数学推理场景，采用MinervaMath数据集中的问题，以温度T=0.7、top_p=0.8的采样参数，为每个问题生成256条候选回答序列，并利用uPRM模型对每条序列进行评分，最终基于聚合策略（取最后一个token的得分）筛选出最优回答。数据集包含三个随机种子（seed=0,1,2）的重复实验，每个种子对应一个子配置，从而保证结果的稳健性。

特点

数据集的核心特色在于其多维度的结构化存储与丰富的评估指标。每个样本不仅保留原始问题与标准答案，还收录了256条完整生成序列及其对应得分，同时记录了每条序列的token数量。尤为突出的是，数据集预先计算了基于加权、多数投票与朴素方法在多种采样规模（从1到256）下的预测结果，形成细粒度的性能对比分析。此外，单独的评估子配置汇总了不同采样数量下的准确率变化，便于研究者直观考察采样规模对推理质量的影响。

使用方法

使用该数据集时，可通过HuggingFace Datasets库加载指定配置，例如选取种子为0的主数据子集或对应的评估子集。研究者能直接访问每条问题的候选回答集合与评分，便于开展重排、集成或鲁棒性分析。预计算的加权与多数投票预测结果可作为基线，而评估子集中的准确率曲线则适合用于可视化采样效率与模型性能的权衡关系。数据格式清晰，可直接用于训练更优的评分模型或改进推理策略。

背景与挑战

背景概述

该数据集构建于大型语言模型推理能力迅猛发展的时代，由研究团队基于Llama-3.2-1B-Instruct与Qwen2.5-14B-Instruct模型，结合uPRM（无监督过程奖励模型）适配器技术开发而成。核心研究问题聚焦于如何通过最佳N选（best-of-n）采样策略提升数学推理任务的准确率，并系统评估不同聚合方法（如加权投票、多数投票）对模型输出的影响。数据集以Minerva Math为基准，包含272道复杂数学题，每个问题生成256条候选解答，并记录详细的token级分数与多种聚合策略下的预测结果。这一资源为探究过程监督与奖励建模在数学推理中的应用提供了高质量基准，对推动大模型在形式化推理领域的研究具有重要价值。

当前挑战

该数据集所面临的挑战主要体现在数学推理的复杂性与评估策略的有效性上。在领域问题层面，数学推理要求模型不仅理解自然语言描述，还需精准执行符号操作与逻辑推导，而当前大模型在长链条推理中易出现累积性错误，亟需可细粒度评估中间过程正确性的机制。在数据集构建过程中，挑战在于为每个问题生成256条高质量候选解答并赋予合理的奖励分数，这需要权衡采样多样性（温度0.7、top-p 0.8）与计算资源的巨大消耗。此外，如何设计稳健的聚合策略（如加权投票、多数投票）以从众多候选解中筛选出最优答案，以及确保不同随机种子下（seed 0/1/2）结果的可重复性，均是构建过程中必须克服的关键难题。

常用场景

经典使用场景

该数据集专为评估和提升大型语言模型在数学推理任务中的表现而设计。其核心应用场景聚焦于矿工数学（Minerva Math）基准测试，通过生成针对同一问题的多条候选解答，并记录每条解答的模型评分、文本内容及token消耗，为研究者提供了丰富的多维评估数据。经典使用方式是将数据集中的问题作为输入，利用加权投票（weighted）、多数投票（majority）和朴素投票（naive）等多种聚合策略，系统性地比较不同在N次采样（N从1到256）条件下的推理准确率，从而深入分析模型在数学问题求解中的鲁棒性与一致性。

衍生相关工作

基于该数据集的研究工作催生了多个有影响力的研究方向。其中，过程奖励模型（Process Reward Model, PRM）与结果奖励模型（Outcome Reward Model）的对比分析成为热点，该数据集为训练轻量级过程监督模型提供了高质量的标注数据。另一项衍生工作聚焦于自洽性解码策略的数学理论分析，研究者利用数据集中大规模的采样与聚合结果，验证了多数投票在数学推理中的理论界限。此外，该数据集还启发了针对不同规模语言模型（如Llama-3.2-1B与Qwen2.5-14B）的跨模型知识蒸馏技术，探讨了小型模型如何通过模仿大型模型的推理路径来提升自身数学能力。

数据集最近研究