anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s74_e82_ns32_md1_seed65_hmmt2025

Name: anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s74_e82_ns32_md1_seed65_hmmt2025
Creator: anirudhb11
Published: 2026-04-25 07:05:16
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s74_e82_ns32_md1_seed65_hmmt2025

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: generation_id dtype: int64 - name: generation dtype: string - name: num_tokens dtype: int64 - name: reward dtype: float64 - name: question_index dtype: int64 - name: target dtype: string - name: task dtype: string splits: - name: test num_bytes: 6031900 num_examples: 256 download_size: 2164818 dataset_size: 6031900 configs: - config_name: default data_files: - split: test path: data/test-* ---

提供机构：

anirudhb11

搜集汇总

数据集介绍

构建方式

本数据集基于Qwen3-4B-Instruct-2507模型，针对HMMT 2025竞赛数学题目构建。采用多轮采样策略，为每道题目生成32条候选解答（ns32），并利用预设的奖励模型对解答质量进行评分，筛选出得分最高的回复作为目标答案。数据集涵盖了从问题到解答的完整推理链，通过设置不同的随机种子（seed65）和温度参数，确保生成结果的多样性与鲁棒性。最终整合了82个epoch的迭代数据，以增强模型在复杂数学推理任务上的表现。

特点

该数据集聚焦于高难度数学竞赛题，包含256条测试样本，每条记录均包含原始问题、模型生成的多个解答及其对应的奖励分数，方便研究者评估不同推理策略的效果。数据集的独特之处在于其内置的奖励评估机制，能够量化解答的数学正确性与逻辑严谨性。此外，题目索引与任务标签的保留，使得数据易于溯源和分类分析，为数学推理模型的训练与评测提供了高质量、多视角的基准资源。

使用方法

该数据集可直接加载为HuggingFace Datasets对象，指定split为'test'进行使用。每条数据包含'question'字段作为模型输入，'generation'字段为模型生成的解答，配合'reward'字段可用于偏好对齐训练。研究者可依据'reward'值筛选高质量样本，或利用'generation_id'对同一问题的不同解答进行对比分析。适用于数学推理模型的监督微调、强化学习及奖励模型训练等场景。

背景与挑战

背景概述

该数据集源自对大规模语言模型数学推理能力的深入研究，由Qwen团队于2025年7月创建，基于Qwen3-4B-Instruct模型在HMMT 2025数学竞赛题目上的生成结果构建而成。核心研究问题聚焦于评估与优化语言模型在硬性数学问题上的生成质量与奖励信号，通过多轮采样与token级分析，探索模型在复杂推理任务中的表现边界。该数据集为数学推理领域的模型微调、奖励建模及生成策略优化提供了标准化测试基准，对推动语言模型在竞赛数学与高难度推理场景中的应用具有重要参考价值。

当前挑战

该数据集所解决的领域问题在于，现有数学推理数据集多偏重简单运算或基础应用题，难以覆盖竞赛级复杂推理需求，而语言模型在长链条、多步骤的硬数学题目中常出现逻辑断裂或符号误用，亟需高难度、多样化的生成样例进行评测与训练。构建过程中，需从HMMT 2025题源中筛选256道高区分度题目，并针对Qwen3-4B-Instruct进行多次采样（每题目32次），平衡生成多样性与计算成本；同时，如何设计可靠的奖励信号以区分正确推理与似是而非的回答，以及处理长文本中的token截断问题，均是数据质量控制的关键难点。

常用场景

经典使用场景

在数学推理与人工智能交叉领域中，该数据集专注服务于数学竞赛类难题的解答生成与质量评估。其核心使用场景为利用Qwen3-4B-Instruct-2507模型生成多个候选解题步骤，配合奖励机制筛选出最优解答路径，广泛用于训练模型的数学逻辑链推理能力。研究者可借助其丰富的question-generation-reward三元组结构，系统性地评估大语言模型在复杂数学问题上的表现，尤其适用于hmmt2025等高级竞赛题型的解析与标准化测试。

衍生相关工作

该数据集衍生的相关经典工作覆盖了数学推理增强训练的多个方面：包括基于蒙特卡洛树搜索的解题路径探索、过程奖励模型（Process Reward Model）的微调训练，以及数学领域特定的大语言模型对齐技术。此外，结合contrastive decoding与self-consistency策略的推理优化方法也常以此类数据为基准。这些工作共同构建了从零样本推理到多步验证的完整研究脉络，深化了对语言模型数学能力的理解。

数据集最近研究