sibasmarakp/Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions

Name: sibasmarakp/Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions
Creator: sibasmarakp
Published: 2026-04-25 14:21:40
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sibasmarakp/Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions

下载链接

链接失效反馈

官方服务：

资源简介：

提供的README内容描述了一个名为updated-minerva_math的数据集，包含多个配置。每个配置包含与数学问题及其解决方案相关的特征，包括问题陈述、答案、完成情况、预测和各种评分指标。数据集被分成具有不同种子和聚合策略的训练集。这些特征表明，该数据集可能用于评估或训练模型在数学问题解决任务上的表现，包括各种预测方法和准确性测量。

The provided README content describes a dataset named updated-minerva_math with multiple configurations. Each configuration contains features related to mathematical problems and their solutions, including problem statements, answers, completions, predictions, and various scoring metrics. The dataset is split into training sets with different seeds and aggregation strategies. The features suggest that this dataset is likely used for evaluating or training models on mathematical problem-solving tasks, with various prediction methods and accuracy measurements.

提供机构：

sibasmarakp

搜集汇总

数据集介绍

构建方式

本数据集围绕数学推理任务构建，依托Llama-3.2-1B-Instruct与Qwen2.5-14B-Instruct模型，采用uPRM（Unsupervised Process Reward Model）适配器技术生成。数据来源为更新后的Minerva数学问题集，通过设定温度参数T=0.7、top_p=0.8及采样数量n=256，利用不同的随机种子（seed-0、seed-1、seed-2）进行多次采样，获得每个问题的多个完成序列（completions）。每个完成序列经过程奖励模型打分，并通过'last'聚合策略计算加权与多数投票等指标，最终形成包含原始问题、答案、预测结果及多层次聚合评判的详尽数据结构。

特点

该数据集最具特色之处在于其多维度的评估指标体系。针对每个数学问题，数据集不仅存储原始完成序列和对应得分，还精心设计了从1到256个样本的多种采样规模下的预测结果，涵盖加权（weighted）、多数投票（maj）与朴素（naive）三种聚合策略。这种设置允许研究者深入探究采样数量与聚合方式对推理准确率的影响，为评估模型在不同置信度下的表现提供了丰富素材。同时，数据集中还包含了独立的评估子配置（evals），可直接用于计算不同采样规模下的准确率，极大便利了后续的对比分析。

使用方法

研究者可通过load_dataset函数加载该数据集，并依据需求选择不同的配置名称访问对应种子和评估子集的数据。每个样本的'completions'字段提供模型生成的多样化推理路径，'scores'与'agg_scores'字段则记录了细粒度的奖励分值。对于需要快速评估模型性能的场景，'pred_naive@N'、'pred_maj@N'和'pred_weighted@N'系列字段可直接提供不同采样规模下的预测结果，而'evals'配置则封装了整体准确率统计，适用于消融实验与超参数调优中的性能基准测试。

背景与挑战

背景概述

该数据集名为Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions，是在大语言模型（LLM）数学推理领域内构建的重要资源。其创建基于Minerva Math数据集，由多个研究机构合作完成，核心研究问题在于如何通过过程奖励模型（PRM）提升LLM在多步数学推理中的准确性和鲁棒性。数据集包含大量数学问题及对应的模型生成答案与评分，采用温度0.7、top_p 0.8等采样参数，并利用uPRM（unified Process Reward Model）对模型输出进行打分与聚合。该数据集的发布为强化学习中的过程监督提供了标准化的评估基准，推动了如自我一致性、加权投票等推理增强策略的深入研究，在数学推理和LLM对齐领域具有重要影响力。

当前挑战

该数据集面临的核心挑战首先在于数学推理问题本身的复杂性：多步推导中任一环节的微小错误都可能导致最终答案失准，传统的结果监督难以定位推理路径中的具体缺陷。为此，数据集采用uPRM对每步生成进行评分，但构建过程中面临模型输出多样性管理的难题——通过调整随机种子（seed0-2）和采样数量（n=256）来获取充足样本，并需在加权、多数投票等多种聚合策略间权衡。此外，数据标注与评分的一致性挑战突出：不同种子下的模型生成分布存在差异，如何确保评分的跨样本稳定性，以及如何高效处理海量评分数据以避免计算瓶颈，均是构建中亟待克服的困难。

常用场景

经典使用场景

在数学推理与语言模型对齐研究领域，Llama-3.2-1B-Instruct-Qwen2.5-14B-Instruct-uPRM-T80-adapters-dvts-completions 数据集为探索过程奖励模型（Process Reward Model）在复杂数学问题求解中的有效性提供了关键资源。该数据集基于Minerva Math语料库构建，通过为每个数学问题生成多达256条候选解题路径，并利用uPRM框架对每条路径的正确性进行细粒度评分，从而支持研究者深入评估不同聚合策略（如加权投票、多数投票和朴素抽样）对推理准确性的影响，成为验证过程监督在数学推理链中作用的标杆数据集。

实际应用

在智能教育辅导与自动化数学解题平台中，该数据集具备显著应用价值。通过集成uPRM评分机制与多样化的答案聚合方案，可帮助教学系统实现对学生数学答题过程的自动诊断：既能识别解题思路中的薄弱环节，又能通过加权策略遴选最可靠的最终答案。此外，该数据集可支撑数学竞赛训练系统的开发，通过对比不同随机种子下的推理路径分布，优化模型在歧义性问题上的表现，从而提升教育场景中自适应辅导的精准度与解释性。

衍生相关工作

基于该数据集构建的uPRM评估框架催生了一系列具有启发性的后续研究。相关工作围绕奖励信号聚合机制的优化展开，例如提出动态阈值策略根据问题难度自适应调整投票权重，或结合大模型自洽性（Self-Consistency）原理设计混合推理路径筛选方法。另有工作利用该数据集的逐步骤评分特性，训练轻量级过程评判网络作为插件，嵌入到现有开源数学模型中提升其多步推理可靠性。这些衍生工作共同推动过程监督在大规模数学推理中的可持续进化。

以上内容由遇见数据集搜集并总结生成