five

ENSEONG/full-math-private-n256-Llama-3.2-3B-Instruct-bon

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ENSEONG/full-math-private-n256-Llama-3.2-3B-Instruct-bon
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个数学问题评估数据集,包含多个配置版本,每个配置基于不同的生成参数(如温度T=0.1、0.2、0.3,top_p=1.0,生成数量n=256,随机种子seed=0、42、64、128、256、512,聚合策略agg_strategy=last)生成。每个示例包含数学问题(problem)、难度等级(level)、类型(type)、标准解决方案(solution)、答案(answer)、多个生成完成(completions)、预测结果(pred、preds)、完成令牌数(completion_tokens)以及从1到256不同规模下的多数预测(pred_maj@*)和通过率(pass@*)。数据集旨在评估语言模型在数学问题上的性能,通过多参数设置生成多样化的预测和评估指标,适用于数学推理、模型评估和基准测试任务。

This dataset is a mathematical problem evaluation dataset containing multiple configuration versions, each generated based on different parameters (e.g., temperature T=0.1, 0.2, 0.3, top_p=1.0, number of generations n=256, random seeds seed=0, 42, 64, 128, 256, 512, aggregation strategy agg_strategy=last). Each example includes a mathematical problem, difficulty level, problem type, standard solution, answer, multiple generated completions, prediction results (pred, preds), completion token counts, and majority predictions (pred_maj@*) and pass rates (pass@*) for scales from 1 to 256. The dataset is designed to evaluate the performance of language models on mathematical problems, generating diverse predictions and evaluation metrics through multi-parameter settings, suitable for mathematical reasoning, model evaluation, and benchmarking tasks.
提供机构:
ENSEONG
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Llama-3.2-3B-Instruct模型,针对MATH数据集中的5,000道数学问题,通过最佳N采样(Best-of-N, BoN)策略构建而成。每个问题在温度参数T为0.1、0.2、0.3,top_p为1.0的条件下,独立采样256次,生成256个候选回答(completions)。随后采用多数投票(majority voting)机制聚合各子集规模(1至256)下的预测结果,并将最后一次回答的隐状态作为聚合策略(agg_strategy=last),以获取最终预测。数据集包含了6种不同随机种子(seed 0, 42, 64, 128, 256, 512)生成的多个子配置,每个配置均独立存储完整的采样与评分信息。
特点
数据集的核心特点在于其丰富的采样规模和精细的评估指标。每个问题均关联256个原始生成文本、对应的预测值列表(preds)以及不同大小子集的多数投票预测(pred_maj@1至pred_maj@256),支持从单样本到全体样本的递进式一致性分析。同时,数据集提供了从pass@1到pass@256的递进通过率指标,直观反映模型在不同采样规模下的正确率变化趋势。此外,问题元信息(难度等级、题目类型、标准答案与解法)一应俱全,为深入分析数学推理中的采样平衡、模型鲁棒性及投票策略效能提供了结构化数据支撑。
使用方法
研究人员可通过HuggingFace Datasets库加载特定子配置,例如指定种子和温度参数。加载后的数据集包含'problem'输入字段、'completions'与'preds'列表字段,以及各规模下的多数投票结果和通过率。典型用法包括:利用'pred_maj@k'字段验证不同投票规模下模型性能的饱和点;借助'pass@k'指标比较模型在不同随机种子下的稳定性;或利用'level'与'type'字段进行分难度、分题型的细粒度错误分析。数据集的流式加载特性与标准化特征设计,使其能够无缝集成至现有的大模型评估与对比实验流程中。
背景与挑战
背景概述
在大型语言模型(LLM)推理能力评估的浪潮中,数学推理因其高度的逻辑性与符号抽象性,成为检验模型智能水平的核心试金石。该数据集由研究机构或团队基于Llama-3.2-3B-Instruct模型构建,创建于近年LLM评估方法论快速迭代时期,聚焦于数学问题求解的鲁棒性与多样性。数据集以MATH基准测试为蓝本,系统性地收集了5000个训练样本,每个样本包含问题、标准答案及模型在多种温度参数(T=0.1至0.3)与随机种子下的256次生成结果。其核心研究问题在于量化模型在数学推理中的‘自洽性’与‘通过率’随采样次数变化的规律,特别是通过预计算的多层次majority voting(pred_maj@k)与pass@k指标,为分布式推理中的最优采样策略提供了关键基准。该数据集的价值不仅在于为Llama系列模型的数学能力提供了细粒度剖析,更通过公开可复现的生成轨迹与评分体系,推动了LLM推理稳定性研究的透明化与标准化。
当前挑战
该数据集所应对的首要领域挑战,在于LLM在数学推理中普遍存在的‘生成不稳定’与‘逻辑一致性缺失’问题。单个模型面对同一数学问题,即使采用相同的解码策略,其多次生成的结果可能截然不同,这严重削弱了模型在科学计算、教育辅助等场景中的可信度。数据集通过构建大规模采样与多层次投票体系(从1到256次),旨在探索随采样数量增长,预测准确性如何渐进收敛至最优解,为‘如何高效且可靠地提高模型推理精度’提供实证基础。在构建过程中,研究者面临的核心挑战在于计算资源与数据质量的权衡:为每个问题生成256次完整输出需消耗巨大的推理算力,而不同温度参数(T=0.1至0.3)的引入虽能模拟模型生成随机性的粒度,却也大幅扩展了实验配置空间,增加了数据清洗与校验的复杂度。此外,如何确保不同种子下生成结果的独立性、避免重复或偏差,并设计出能真实反映模型能力的pass@k评分体系,亦是构建过程中的技术难点。这些挑战的克服,直接决定了该数据集在评估LLM数学推理鲁棒性时的效度。
常用场景
经典使用场景
在数学推理领域,大语言模型的采样与自洽性研究是评估其准确性与鲁棒性的重要范式。该数据集通过为MATH数据集中的每道题目采集256次模型生成结果,并记录每次生成的回答、对应的pass@k指标以及多数投票预测结果,为研究者提供了一个系统化分析模型解码策略对推理性能影响的理想基准。经典使用场景包括:探究不同温度参数(如T=0.1、0.2、0.3)对生成多样性与正确率的影响,分析从少数样本到多数投票的聚合效果随样本数增长的变化规律,以及评估在固定随机种子下模型推理行为的一致性与波动性。
解决学术问题
该数据集精准回应了自回归语言模型在开放生成任务中可靠性不足的难题,特别是数学问题求解场景下模型输出存在显著不确定性的困境。通过系统记录多次采样的预测及其逐步聚合结果,它帮助研究者量化模型在数学推理中的置信度、自洽性以及质量分布,从而深入理解多数投票策略如何提升整体预测的稳定性。对学术研究的意义在于,它提供了可复现的标准实验平台,使得对比不同解码策略、探索采样数量与性能提升之间的边际效应成为可能,推动了面向推理任务的模型评估方法论发展。
衍生相关工作
围绕该数据集的构建思想与统计特性,学术界已衍生出若干重要工作方向。一方面,针对pass@k这一核心指标的研究可衍生出数学推理能力评估新基准,推动对比不同规模模型或微调策略下采样效率与正确率的关系。另一方面,数据集所采用的温度-种子组合实验设计启发了关于解码策略随机性对推理稳定性影响的系统化探讨,相关工作扩展到自洽性增强、不确定性校准以及选择性响应等前沿课题。此外,基于该数据集的多数投票聚合结果还催生了面向数学任务的共识融合算法研究,为多生成融合技术提供了丰富的实验素材。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作