Qwen2.5-Math-7B-Instruct-Llama3.1-8B-PRM-Mistral-Data-best_of_n-completions
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/sibasmarakp/Qwen2.5-Math-7B-Instruct-Llama3.1-8B-PRM-Mistral-Data-best_of_n-completions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个数学问题求解相关的配置,主要用于数学自动解题系统的训练与评估。数据集主要包含三种类型:minervamath(272个样本)、MATH500(500个样本)和OlympiadBench(674个样本)。每个样本包含数学问题(problem)、答案(answer)以及多个模型生成的解题过程(completions)和对应的评分(scores)。数据集还提供了多种预测结果格式(pred_weighted@n, pred_maj@n, pred_naive@n)和评估指标(准确率等)。数据以文本形式存储,包含训练集和评估集,总大小从几百字节到数十MB不等。适用于数学自动解题、语言模型在数学领域的应用研究等任务。
创建时间:
2026-03-28
原始信息汇总
数据集概述
基本信息
- 数据集地址: https://huggingface.co/datasets/sibasmarakp/Qwen2.5-Math-7B-Instruct-Llama3.1-8B-PRM-Mistral-Data-best_of_n-completions
- 配置数量: 24个独立配置
- 主要数据来源: 包含minervamath、MATH500和OlympiadBench三个数学问题基准的衍生数据。
配置与结构
数据集包含三种主要类型的配置,每种类型下包含多个随机种子(seed 0, 1, 2)的变体,以及对应的评估结果配置。
1. minervamath 配置
- 配置标识:
minervamath--T-0.7--top_p-0.8--n-8--seed-{0,1,2}--agg_strategy-last - 数据量: 每个配置272个训练样本。
- 核心特征:
problem: 数学问题文本。answer: 标准答案。completions: 模型生成的多个补全(列表)。scores: 每个补全的评分(嵌套列表)。pred: 预测结果。- 多种聚合预测结果(如
pred_weighted@1,pred_maj@1,pred_naive@1等)。
2. MATH500 配置
- 配置标识:
rebuttal-MATH500--T-0.7--top_p-0.8--n-8--seed-{0,1,2}--agg_strategy-last - 数据量: 每个配置500个训练样本。
- 核心特征:
- 包含minervamath配置的所有特征。
- 额外特征:
solution(解题过程)、subject(学科)、level(难度等级)、unique_id(唯一标识符)。
3. OlympiadBench 配置
- 配置标识:
rebuttal-OlympiadBench--T-0.7--top_p-0.8--n-8--seed-{0,1,2}--agg_strategy-last及rebuttal-new-OlympiadBench变体 - 数据量: 每个配置674个训练样本。
- 核心特征:
- 包含丰富的元数据特征:
id,modality,difficulty,is_multiple_answer,unit,answer_type,error,question_type,subfield,subject,language等。 solution和answer字段为列表类型。- 包含多个图像占位符字段(
image_1至image_9,均为null)。
- 包含丰富的元数据特征:
4. 评估结果配置
- 配置标识: 上述每种数据配置均对应一个
--evals配置(如rebuttal-MATH500--T-0.7--top_p-0.8--n-8--seed-0--agg_strategy-last--evals)。 - 数据量: 每个配置4个训练样本。
- 核心特征:
n: 采样数量。acc_naive: 朴素准确率。acc_weighted: 加权准确率。acc_maj: 多数投票准确率。
数据特征总览
所有主要数据配置共享以下特征组:
- 问题与答案:
problem,answer(或solution)。 - 模型输出:
completions(多个生成结果列表),completion_tokens。 - 评分与聚合:
scores,agg_scores。 - 预测结果:
pred及一系列基于不同采样数(n=1,2,4,8)和策略(weighted, maj, naive)的聚合预测字段。
数据规模
- 总下载大小: 各配置独立,例如:
- minervamath配置约5-10 MB。
- MATH500配置约8-16 MB。
- OlympiadBench配置约17-52 MB。
- 评估配置约2.2 KB。
- 数据集大小: 与下载大小对应,训练数据大小从约5.5 MB到18.5 MB不等。
技术参数
- 生成参数: 温度(T)= 0.7,top_p = 0.8。
- 采样数: n = 8。
- 聚合策略: agg_strategy = last。
搜集汇总
数据集介绍

构建方式
在数学推理领域,数据集构建常需模拟复杂问题求解的多样性。该数据集通过调用Qwen2.5-Math-7B-Instruct与Llama3.1-8B等先进模型,对来自MinervaMath、MATH500及OlympiadBench等数学基准的题目进行多次采样生成。每个问题均采用温度0.7、top-p 0.8的参数设置,并产生8个独立完成序列,辅以不同随机种子确保生成结果的丰富性。最终通过聚合策略整合多轮输出,形成包含原始问题、参考答案、模型补全序列及对应评分的结构化数据。
特点
该数据集的核心特征在于其多层次、细粒度的评估框架。每个条目不仅提供原始数学问题与标准答案,还囊括了模型生成的多个补全序列及其详细评分列表,支持对模型输出进行深度分析。数据集特别设计了加权预测、多数投票及朴素选择等多种聚合方法,并在不同采样数量下(如1、2、4、8)提供预测结果,便于研究模型性能随采样规模的变化规律。此外,针对奥林匹克竞赛等高难度题目,还保留了学科、难度等级、解题步骤等元信息,为复杂数学推理研究提供了全面支撑。
使用方法
研究者可利用该数据集进行数学推理模型的训练与评估,尤其适用于探索基于采样的推理增强技术。通过加载不同配置的数据子集,可以分析模型在多轮生成中的一致性、准确性及错误模式。数据集中的评分与聚合预测字段便于实施自洽性校验、投票机制比较等实验。对于高级应用,用户可依据补全序列与评分数据,训练奖励模型或优化策略,以提升模型在数学问题求解中的鲁棒性。同时,附带的评估结果文件允许快速对比不同聚合策略在各类数学任务上的性能表现。
背景与挑战
背景概述
在人工智能领域,数学推理能力是衡量大型语言模型智能水平的关键维度之一。Qwen2.5-Math-7B-Instruct-Llama3.1-8B-PRM-Mistral-Data-best_of_n-completions数据集应运而生,旨在评估和提升模型在复杂数学问题上的解决能力。该数据集由研究团队基于多个知名数学基准构建,如MATH500和OlympiadBench,涵盖了从基础算术到奥林匹克竞赛级别的多样化题目。其核心研究问题聚焦于通过多模型集成与投票机制,探索如何有效聚合不同模型的生成结果,以提升最终答案的准确性与鲁棒性。这一工作对推动数学推理模型的发展具有重要影响,为后续研究提供了宝贵的基准数据与方法论参考。
当前挑战
该数据集致力于解决数学问题求解中的模型集成与答案聚合挑战,具体涉及如何从多个候选生成中筛选出最优解。在构建过程中,面临的首要挑战是数学问题的多样性与复杂性,题目涵盖代数、几何、数论等多个子领域,且难度跨度极大,要求生成结果不仅形式正确,还需符合严格的数学逻辑。其次,数据集成过程中需要处理不同模型输出的异构性,包括文本格式、解题步骤和最终答案的表示差异,这增加了统一评估与聚合的难度。此外,确保生成结果的质量与可靠性也是一大挑战,需设计有效的评分机制来过滤错误或低质量的候选答案,以避免误导最终聚合结果。
常用场景
经典使用场景
在数学推理与大型语言模型评估领域,该数据集通过整合多个先进模型生成的数学问题解答序列,为研究者提供了一个系统性的基准测试平台。其经典使用场景在于评估和比较不同模型在复杂数学问题上的推理能力,特别是通过best-of-n采样策略生成多个候选答案,并利用加权投票、多数投票等聚合方法筛选最优解。这种设计使得研究者能够深入分析模型输出的多样性与一致性,为数学自动求解系统的性能优化提供数据支撑。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于数学推理的集成方法与评估协议创新。例如,基于其best-of-n采样框架,研究者提出了改进的答案重排序算法与置信度校准技术;同时,该数据集也催生了针对MATH、OlympiadBench等数学基准的模型对比研究,促进了如MinervaMath等项目在数学专用模型训练上的进展。这些工作共同深化了复杂推理任务中模型集成与评估方法学的理解。
数据集最近研究
最新研究方向
在数学推理领域,大型语言模型的性能评估与优化已成为研究热点。该数据集聚焦于多模型生成结果的集成与选择策略,通过对比不同聚合方法如加权投票、多数投票和朴素选择在MATH500、OlympiadBench等数学问题集上的表现,探索模型输出的可靠性提升路径。这一研究方向与当前人工智能在复杂问题求解中的可信度挑战紧密相连,旨在通过系统化的评估框架,为模型决策过程提供更稳健的基准,进而推动数学推理模型在实际应用中的准确性与泛化能力。
以上内容由遇见数据集搜集并总结生成



