anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s30_e45_ns32_md1_seed42_aime2025
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s30_e45_ns32_md1_seed42_aime2025
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: generation_id
dtype: int64
- name: generation
dtype: string
- name: num_tokens
dtype: int64
- name: reward
dtype: float64
- name: question_index
dtype: int64
- name: target
dtype: string
- name: task
dtype: string
splits:
- name: test
num_bytes: 8967434
num_examples: 480
download_size: 3127875
dataset_size: 8967434
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
提供机构:
anirudhb11
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen3-4B-Instruct-2507模型,针对AIME 2025数学竞赛试题,通过多轮生成与筛选策略构建而成。具体而言,采用温度采样(temperature=0.6)和top-p采样(p=0.95)进行32次独立生成,每个问题产生30个答案候选;随后依据奖励模型对生成结果进行评分,仅保留奖励值排名前45的优质样本。最终从480道数学难题中,系统性地提取出兼具多样性与高解题质量的生成数据,形成结构化训练集。
特点
数据集以数学推理为核心,涵盖AIME 2025竞赛级别的复杂问题,每个样本包含原始问题、模型生成答案、生成标识符及奖励评分。其显著特点在于规模精简(仅480条测试样本)但质量严苛——通过奖励模型过滤确保了每道题至少保留一个高置信度解答。数据结构包含八列特征,尤其注重生成过程的可追溯性,支持对同一问题不同答案的横向比较与诊断分析。
使用方法
该数据集适用于数学推理模型的微调与评估场景。用户可直接加载test分片,将question字段作为输入,generation作为参考输出,用于监督学习或偏好对齐;奖励分数可作为样本权重,在损失函数中强调高置信度答案。此外,支持通过question_index与target字段进行跨样本对比,分析模型在不同数学题型上的表现短板。数据以Parquet格式存储,兼容主流通用数据处理框架。
背景与挑战
背景概述
在人工智能领域,数学推理能力被视为衡量大语言模型智能水平的关键标尺。2025年,Qwen团队基于Qwen3-4B-Instruct模型,针对高难度数学推理任务构建了mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s30_e45_ns32_md1_seed42_aime2025数据集。该数据集聚焦于美国数学邀请赛(AIME)2025年级别的挑战性数学问题,通过多轮采样与奖励建模生成高质量推理轨迹,旨在推动小型语言模型在复杂数学推理上的能力边界。数据集包含480条测试样本,每条样本均包含问题、多代生成结果、token数量及奖励值,为评估模型在数学推理中的一致性、多样性与准确性提供了标准化基准。该数据集的出现填补了针对中型模型(如4B参数级别)在顶级竞赛数学推理任务上的评估空白,对理解模型推理机制、优化训练策略产生了深远影响。
当前挑战
该数据集所面对的领域核心挑战在于,数学推理任务要求模型具备精确的逻辑推导、数值计算和符号操作能力,而小型模型(如4B参数)在参数容量有限的情况下,极易出现计算错误、步骤跳跃或逻辑断裂,难以稳定生成正确且完整的解题过程。构建过程中的挑战主要体现在:生成高质量推理轨迹需要设计有效的采样策略(如温度控制、多样本生成)与奖励模型,以确保生成内容的正确性与多样性平衡;同时,如何从众多生成结果中筛选出代表最优推理路径的样本,并抑制噪声与错误模式,是数据质量保障的难点。此外,数据集规模较小(480条),如何在有限样本上获得可靠评估结果,避免过拟合或统计偏差,也是需要审慎应对的挑战。
常用场景
经典使用场景
在大规模语言模型数学推理能力的评估与优化领域中,mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s30_e45_ns32_md1_seed42_aime2025数据集以其高度结构化的格式与严谨的数学问题设计,成为衡量模型在复杂数学任务上表现的核心基准。该数据集包含480条精心构造的测试样本,每条样本均涵盖原始问题、模型生成结果、奖励分数及目标答案等关键字段,特别适用于评估Qwen3-4B-Instruct等在AIME 2025级别高难度数学问题上的推理准确性与生成质量。其经典使用方式包括作为零样本或少样本测试集,以及作为强化学习过程中奖励模型的验证数据,为数学推理能力的量化分析提供了标准化的评估框架。
解决学术问题
该数据集旨在解决大语言模型在高阶数学推理任务中存在的准确性不足与可解释性缺失等核心学术问题。通过提供包含多轮生成结果与细粒度奖励信号的结构化数据,研究者得以深入剖析模型在复杂数学推理链中的错误模式与性能瓶颈,例如在代数、数论或组合数学等领域的逻辑断裂或数值计算偏差。其重要意义在于推动了对模型数学能力从表面正确性到深层推理路径的系统性评估,为后续开发更鲁棒的数学推理算法与奖励建模技术奠定了数据基础,进而助力人工智能在科学计算与教育领域实现更可靠的认知突破。
衍生相关工作
基于该数据集,学术界已衍生出一系列具有影响力的研究工作。例如,在强化学习优化方向上,研究者利用其中的奖励信号设计更高效的策略梯度算法,显著提升了模型在数学推理任务中的采样效率。在模型蒸馏与压缩领域,该数据集被用作教师模型的评估基准,以指导轻量级学生模型在数学能力上的知识迁移。此外,围绕该数据集还催生了关于多步推理链的可解释性分析工作,通过对比不同生成路径的奖励值分布,揭示了模型决策的内在逻辑。这些衍生工作不仅深化了对数学推理机制的理解,也为跨学科应用如科学发现与自动定理证明提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



