full-aime_2025-n256-Qwen3-4B-Instruct-2507-bon

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/ENSEONG/full-aime_2025-n256-Qwen3-4B-Instruct-2507-bon

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置的数学问题解决数据，每个配置针对不同的温度参数（T=0.1, 0.2, 0.3）、种子值（0, 128, 256, 42, 512, 64）和聚合策略（last）。每个配置包含30个训练样本，涉及数学问题的描述、答案、问题类型、完成情况、预测结果以及不同采样级别（1到256）的通过率。数据集的主要特征包括问题索引、问题文本、答案、问题类型列表、完成文本列表、预测结果、各采样级别的多数预测结果、预测列表以及各采样级别的通过率。数据集的下载大小和总大小也随配置不同而变化。

This dataset contains math problem-solving data across multiple configurations. Each configuration corresponds to distinct temperature parameters (T=0.1, 0.2, 0.3), seed values (0, 128, 256, 42, 512, 64), and aggregation strategy (last). Each configuration includes 30 training samples, covering problem descriptions, answers, problem types, completion statuses, prediction results, and pass rates at various sampling levels (1 to 256). The core features of the dataset include problem index, problem text, answer, problem type list, completion text list, prediction results, majority prediction results at each sampling level, prediction list, and pass rates at each sampling level. The download size and total size of the dataset vary across different configurations.

创建时间：

2026-05-06

原始信息汇总

好的，这是根据您提供的数据集页面内容整理的关键信息概述。

数据集概述：full-aime_2025-n256-Qwen3-4B-Instruct-2507-bon

该数据集记录了使用 Qwen3-4B-Instruct 模型在 AIME 2025 数学问题上的推理与评估结果，采用了 Best-of-N (BoN) 采样策略。

核心配置

数据集包含多个配置（config_name），每个配置代表一组不同的实验参数。参数的命名规则为 MathArena_aime_2025--T-{温度}--top_p-1.0--n-256--seed-{随机种子}--agg_strategy-last。

模型: Qwen3-4B-Instruct-2507
任务: 解决 AIME 2025 数学竞赛问题
采样数量 (n): 对每个问题生成 256 个候选答案。
采样温度 (T): 包含 0.1、0.2、0.3 三种设置。
随机种子 (seed): 包含 0, 42, 64, 128, 256, 512 六种种子，用于控制实验的随机性。
聚合策略 (agg_strategy): 使用 last 策略，即取最后一个 token 的 logit 作为预测依据。

数据规模

整个数据集共包含 18 个配置（3种温度 × 6种种子）。

总示例数: 每个配置包含 30 个样本（对应 AIME 2025 的 30 道题目）。
总样本数: 30 题/配置 × 18 配置 = 540 个样本。
数据大小:
- 最小的配置（温度0.1，种子64）压缩后约 19.8 MB，解压后约 61.3 MB。
- 最大的配置（温度0.3，种子42）压缩后约 21.1 MB，解压后约 61.8 MB。

数据特征

每个样本包含以下字段：

problem_idx: 题目在数据集中的索引 (int64)。
problem: 具体的数学问题文本 (string)。
answer: 问题的标准答案 (int64)。
problem_type: 问题所属的类型（字符串列表）。
completions: 模型生成的 256 个候选答案文本（字符串列表）。
scores: 与候选答案对应的分数（该字段值为 null，表示未记录）。
pred: 模型最终的预测结果 (string)。
completion_tokens: 生成每个候选答案所消耗的 token 数量（整数列表）。
pred_maj@k: 对前 k 个（k=1, 2, 4, ..., 256）候选答案进行多数投票（Majority Voting）后得到的预测结果 (string)。
preds: 所有 256 个候选答案的字符串列表 (string list)。
pass@k: 前 k 个候选答案中包含正确答案的概率，即 Pass@k 指标 (float64)，k 值同样包含 1, 2, 4, ..., 256。

数据划分

所有配置只有一个 train 分割（split），无单独的验证或测试集。

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-4B-Instruct模型，针对2025年AIME数学竞赛的30道题目进行构建。通过设置0.1、0.2、0.3三种温度参数，结合不同的随机种子（0、42、64、128、256、512），为每道题目生成256个独立样本。所有生成过程均采用top_p采样策略且设定为1.0，并以最后一次生成结果作为最终预测。数据集合包含多个配置，每个配置对应一种温度和种子的组合，记录下完整的生成文本、预测答案以及逐级多数投票结果。

特点

数据集最显著的特征是提供了从@1到@256共九种粒度的多数投票准确率（pred_maj）和pass@k指标，能够系统性地刻画模型在不同采样规模下的性能演变。每道题目均包含问题描述、正确答案、问题类型以及256条完整生成结果，为分析模型在数学推理任务中的行为模式提供了丰富素材。多个随机种子和温度参数的配置使得该数据集能够支撑关于采样策略对模型输出稳定性与多样性影响的研究。

使用方法

研究者可直接使用HuggingFace的datasets库加载所需配置，通过pred_maj@k和pass@k字段评估模型在不同采样规模下的表现。completions字段提供了所有生成文本，便于进行错误分析或思维链可视化。多配置对比可揭示温度参数对模型推理质量的影响，而不同种子下的结果则可用于评估模型输出的鲁棒性。scores字段当前为null，预留了未来扩展打分机制的空间。

背景与挑战

背景概述

在人工智能领域，数学推理能力的评估一直是衡量大型语言模型（LLM）认知水平的重要标尺。由MathArena团队构建的full-aime_2025-n256-Qwen3-4B-Instruct-2507-bon数据集，诞生于2025年，聚焦于美国数学邀请赛（AIME）的2025年试题。该数据集旨在系统性地评估Qwen3-4B-Instruct模型在复杂数学问题上的高阶推理与多步求解能力。通过为每道题目生成256个候选回答并记录多种聚合策略下的正确率，该数据集不仅为数学推理研究提供了标准化评测基准，也推动了LLM在符号运算、逻辑推演和数值计算等前沿方向的纵深探索，对自然语言处理与教育智能领域产生了深远影响。

当前挑战

该数据集所面对的挑战首先来自数学推理领域本身：AIME试题涉及代数、数论、组合与几何多个分支，要求模型在有限步骤内完成精确推导，而当前的LLM在长链条逻辑和精确计算方面仍易出现“幻觉”或累积误差。构建过程中的挑战同样不容忽视：为确保统计可靠性，每道题需采样256次生成，这带来了巨大的计算开销；同时，为消除随机性对评估的干扰，研究者必须设计多组种子（如0, 42, 128等）进行重复实验，并对不同温度参数（T=0.1~0.3）下的输出进行对比，数据的管理与标准化处理难度极大。

常用场景

经典使用场景

在数学推理与大规模语言模型评估领域，AIME（美国数学邀请赛）试题凭借其高难度与严谨的数学逻辑，成为检验模型数理能力的黄金标杆。该数据集聚焦于2025年AIME竞赛题目，利用Qwen3-4B-Instruct模型在温度系数0.1至0.3、top_p=1.0的采样设置下，针对每道题目生成256个独立回答，并系统记录不同样本量条件下的多数投票（majority voting）与单次通过率（pass@k）指标。这一精心设计的实验范式使得研究者能够深入探究模型在不同随机种子下的推理稳定性，同时评估通过增加采样数量提升解耦准确率的边际收益，为对比分析零样本推理与自洽性增强策略提供了标准化的测试平台。

解决学术问题

该数据集直面大语言模型在高阶数学推理中面临的三大核心挑战：推理路径的多样性、答案的置信度校准以及采样效率与准确率的权衡。通过提供细粒度的pass@k与maj@k指标（k值从1到256呈对数增长），研究者能够精准量化模型在多次尝试中捕获正确解的概率分布，揭示多数投票策略的反弹效应与饱和点。这一资源首次在公开数据集层面系统性地解耦了温度参数与采样规模对数学推理性能的交互影响，为构建更鲁棒的推理增强技术——如自一致性改进、置信度修剪与动态采样——奠定了实证基础，进而推动学术界对大型模型数学能力的边界进行更科学的度量与解释。

衍生相关工作

该数据集催生了一系列关于语言模型推理能力增强的拓展研究。一方面，研究者基于其提供的多种子采样结果，提出了“自适应多数投票”方法，即根据模型在早期样本中的置信度动态决定后续采样规模，从而在保证准确率的同时降低计算开销。另一方面，数据集中的困难题目子集（如pass@k持续较低的题目）被用作对抗性测试床，激发了对“自我反思式推理”和“外部工具调用”等复合策略的效果评估。此外，借鉴该数据集的实验设置，相关工作进一步将评估框架扩展至多模态数学问题与竞赛级别的几何推理，并探索了通过对比不同基础模型（如Llama系列与Qwen系列）在相同采样协议下的表现来理解架构差异的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集