full-gsm8k-private-n256-Llama-3.2-3B-Instruct-bon

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/ENSEONG/full-gsm8k-private-n256-Llama-3.2-3B-Instruct-bon

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是基于GSM8K（小学年级数学问题数据集）生成的模型输出评估集合。数据集包含多个配置，每个配置对应不同的生成采样参数（温度T分别为0.1、0.2、0.3，top_p固定为1.0）和随机种子（0、42、64、128、256、512），采用“last”聚合策略。每个配置包含1319个样本，每个样本包含原始数学问题（problem）、标准答案（answer）、解题步骤（solution），以及语言模型生成的256个补全结果（completions）。数据集还提供了多种评估指标：包括单个预测（pred）、预测列表（preds）、基于多数投票的预测结果（pred_maj@k，其中k=1,2,4,8,16,32,64,128,256）以及对应的通过率指标（pass@k）。该数据集适用于研究语言模型在数学推理任务上的生成稳定性、采样参数对输出质量的影响、多数投票策略的效果评估等场景。

This dataset is a model output evaluation collection generated based on GSM8K (a primary school grade math problem dataset). It includes multiple configurations, each corresponding to different generation sampling parameters (with temperatures T of 0.1, 0.2, 0.3, and top_p fixed at 1.0) and random seeds (0, 42, 64, 128, 256, 512), employing a last aggregation strategy. Each configuration contains 1319 samples, with each sample including the original math problem (problem), standard answer (answer), solution steps (solution), and 256 completion results (completions) generated by a language model. The dataset also provides multiple evaluation metrics: including individual predictions (pred), prediction lists (preds), majority voting-based prediction results (pred_maj@k, where k=1,2,4,8,16,32,64,128,256), and corresponding pass rate metrics (pass@k). This dataset is suitable for researching the generation stability of language models in mathematical reasoning tasks, the impact of sampling parameters on output quality, and the effectiveness evaluation of majority voting strategies.

创建时间：

2026-05-20

原始信息汇总

数据集概述：`ENSEONG/full-gsm8k-private-n256-Llama-3.2-3B-Instruct-bon`

该数据集基于GSM8K数学推理任务，使用Llama 3.2 3B Instruct模型，通过Best-of-N (BoN) 采样策略生成。数据集专注于评估和改进模型在私有GSM8K测试集上的推理能力。

数据集配置

数据集包含多个子配置（config），每个配置由以下三个参数组合标识：

温度（T）：0.1, 0.2, 0.3
随机种子（seed）：0, 42, 64, 128, 256, 512
采样数（n）：固定为256

配置命名格式为：ENSEONG_gsm8k-private--T-{T值}--top_p-1.0--n-256--seed-{种子值}--agg_strategy-last

数据集规模

总样本数：每个配置包含 1319 个样本（训练集）。
数据集大小：每个配置的大小在 242 MB 至 244 MB 之间。
下载大小：每个配置的压缩文件大小在 22 MB 至 36 MB 之间。

数据结构与特征

每个样本包含以下特征：

特征名	数据类型	描述
`answer`	string	问题的标准答案
`problem`	string	数学问题文本
`solution`	string	问题对应的标准解法
`completions`	list of string	模型为同一问题生成的256个补全（候选回答）
`scores`	list of null	得分字段，当前为空（null）
`pred`	string	模型的最终预测
`completion_tokens`	list of int64	每个补全的 token 数量
`pred_maj@k`	string	基于前k个补全进行多数投票的预测（k=1,2,4,8,16,32,64,128,256）
`preds`	list of string	所有候选预测的列表
`pass@k`	float64	前k个补全中至少有一个正确的概率（k=1,2,4,8,16,32,64,128,256）

研究用途

该数据集适用于以下研究方向：

最佳采样（Best-of-N）：评估模型在生成多个候选答案后选择最佳答案的效果。
多数投票（Majority Voting）：分析不同规模（@k）的多数投票策略对推理准确率的影响。
采样策略分析：比较不同温度（T）和随机种子对模型生成多样性与正确率的影响。
数学推理评估：作为GSM8K任务的一个基准，用于对比不同采样和聚合策略的性能。

搜集汇总

数据集介绍

构建方式

该数据集基于GSM8K数学推理任务进行构建，采用Best-of-N采样策略生成多样化推理路径。具体而言，以Llama-3.2-3B-Instruct模型为基座，在私有测试集上为每个问题生成256个候选解，采样温度分别设置为0.1、0.2、0.3，并采用不同的随机种子以增强多样性。所有候选解均被保留，同时通过多数投票机制在多个尺度上聚合预测结果，从而构建出包含原始问题、标准答案、模型解、候选完成序列及多粒度投票结果的结构化数据。

特点

数据集的核心特点在于其丰富的候选解空间与多层次的性能评估指标。每个问题的256个候选解为分析模型推理稳定性提供了充足样本，而pred_maj@1至pred_maj@256系列字段则系统刻画了多数投票在样本量递增时的准确率变化。pass@k指标进一步揭示了模型在多次采样下的成功概率，有助于深入理解模型行为的统计特性。此外，数据集覆盖了多种温度与随机种子组合，便于研究采样策略对数学推理能力的影响。

使用方法

数据集以HuggingFace Datasets格式存储，用户可通过load_dataset接口便捷加载多个配置版本。每个配置对应一组特定的采样参数组合，训练集包含1319个样本。研究者可直接访问问题字段进行推理评估，利用候选完成列表展开自洽性分析，或通过预设的多数投票结果快速对比不同聚合策略的效果。pass@k指标可直接用于评估模型在采样次数限制下的推理鲁棒性，而preds字段则提供了所有候选预测的原始记录，便于自定义分析。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型推理能力的评估始终是核心议题之一。该数据集创建于大型语言模型推理能力研究蓬勃发展的时期，由ENSEONG团队基于Llama-3.2-3B-Instruct模型构建，旨在系统性地探究在数学推理任务中，通过最佳N采样（Best-of-N, BoN）策略提升模型表现的内在机制。其核心研究问题聚焦于采样温度与随机种子如何影响多数投票（Majority Voting）与精确匹配（Pass@K）等聚合策略的效果，从而揭示模型推理置信度与多样性的权衡关系。该数据集基于GSM8K数学问题集，通过精心设计的多温度、多种子实验方案，产出了包含完整推理链与评分信息的丰富样本，为理解语言模型在复杂推理任务中的行为模式提供了关键数据基础，对推动推理增强技术的发展具有重要参考价值。

当前挑战

该数据集所应对的领域问题主要集中于数学推理任务的可靠性提升，即如何从模型生成的多样化候选答案中筛选出正确解，克服单一采样路径中随机性与局部最优的局限。构建过程中的挑战首先体现为采样策略的精细调控，需在温度参数（T=0.1至0.3）与随机种子间寻求平衡，以确保生成样本既具备充分多样性又不失推理质量。其次，多粒度评估指标的引入（如Pass@K与多数投票在不同样本量下的表现）要求对大规模生成结果进行高效存储与结构化整理。再者，数据集中各个配置下（不同温度与种子组合）均需保持1319个样本的一致性，这要求构建流程具备高度可靠性与可重复性，同时避免因随机波动导致的实验偏差，确保所记录的性能指标能够真实反映模型行为的变化规律。

常用场景

经典使用场景

在自然语言处理与人工智能的交叉领域，数学推理能力的评估与提升一直是备受瞩目的核心课题。full-gsm8k-private-n256-Llama-3.2-3B-Instruct-bon数据集专为探究大语言模型在多步数学推理任务中的表现而设计，其经典使用场景聚焦于评测模型对复杂数学应用题的求解能力。研究人员借助该数据集，通过多次采样生成候选回答，并借助majority voting机制从中遴选出最为可靠的答案，从而精准度量模型在有限计算资源下的推理稳定性与准确性。这种借助自洽性提升召回率的范式，为后续开发更鲁棒的推理系统奠定了坚实基础。

解决学术问题

该数据集回应了学术研究中一个关键诉求：如何在小规模参数量的语言模型上实现可复现且具备统计效力的数学推理评估。传统基准如GSM8K的原始架构往往仅提供单一解答路径，难以系统量化模型在不同随机种子下的行为波动。而该数据集通过提供大量重复生成的样本、多粒度pass@k与maj@k指标，解开了模型性能随机性与涌现能力之间的谜团。它不仅揭示了采样策略与聚合方法对最终结果的决定性影响，还促进了学界对模型内在不确定性、推理路径多样性及投票机制优越性的深入理解，从而极大推动了可靠推理评估体系的建立。

衍生相关工作

该数据集的发布催生了一系列富有影响力的后续研究。围绕multi-sample一致性与majority voting策略，学界相继探索了基于投票结果筛选训练样本的自训练方法、利用投票熵度量模型不确定性的校准技术，以及借助不同温度与采样数探索性能边界的消融实验。在此基础上，相关工作还延伸至将自洽性信号融入强化学习奖励建模的新范式，进一步提升了模型在未见过的数学难题上的泛化能力。这些衍生工作不仅深化了学界对语言模型推理机制的理解，也为构建更具逻辑严密性与数学素养的人工智能系统开辟了崭新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集