anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s67_e74_ns32_md1_seed65_hmmt2025

Name: anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s67_e74_ns32_md1_seed65_hmmt2025
Creator: anirudhb11
Published: 2026-04-25 07:04:58
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/anirudhb11/mv_Qwen3-4B-Instruct-2507_hard_math_datasets_s67_e74_ns32_md1_seed65_hmmt2025

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: generation_id dtype: int64 - name: generation dtype: string - name: num_tokens dtype: int64 - name: reward dtype: float64 - name: question_index dtype: int64 - name: target dtype: string - name: task dtype: string splits: - name: test num_bytes: 5689455 num_examples: 224 download_size: 2139150 dataset_size: 5689455 configs: - config_name: default data_files: - split: test path: data/test-* ---

提供机构：

anirudhb11

搜集汇总

数据集介绍

构建方式

该数据集源自Qwen3-4B-Instruct-2507模型在数学推理任务中的生成结果，专门针对HMMT 2025竞赛级数学难题进行构建。通过设定参数s67、e74、ns32、md1及seed65，系统化地采样了224条高难度数学问题及其对应的模型生成解答。每条数据不仅包含原始问题与目标答案，还记录了模型生成的文本、生成唯一标识符、生成token数量以及通过奖励机制评定的 reward 分数，从而构建了一个结构严谨、可追溯的数学推理评估集。

特点

数据集聚焦于高难度数学竞赛题目，涵盖问题、多轮生成解答及量化评分，体现了模型在复杂推理任务上的表现。其核心特点在于每条样本均附带reward指标，可直观反映生成质量；同时，generation_id与question_index字段支持细粒度的实验追踪与多轮次对比分析。此外，数据以test集形式组织，规模虽小但精炼，共计224条样本，非常适合用于模型数学推理能力的专项评测与消融实验。

使用方法

使用该数据集时，可直接通过HuggingFace Datasets库加载test分割数据，获取question、generation、target等字段进行模型输出的定性或定量分析。研究人员可基于reward分数筛选高质量生成样本，或结合num_tokens与generation_id进行生成效率与多样性的评估。此外，数据集的task字段明确了数学任务类型，便于针对不同子任务进行细分研究，适用于模型微调、推理校准及能力基准测试等多种场景。

背景与挑战

背景概述

在大型语言模型（LLM）能力快速演进的背景下，数学推理被视为衡量模型智能水平的核心标尺。mv_Qwen3-4B-Instruct-2507_hard_math_datasets数据集应运而生，其构建旨在评估和提升LLM在复杂数学竞赛题目上的表现。该数据集基于HMMT 2025（哈佛-麻省理工数学竞赛）的题目，由研究者于2025年7月左右创建，采用Qwen3-4B-Instruct模型进行多轮生成（共计32次）与筛选，共包含224条高质量测试样本。每条数据涵盖问题、生成答案、目标答案及奖励分数，专门聚焦于高难度数学推理场景。该数据集为数学推理领域的模型微调与评估提供了稀缺的高质量基准，对推动LLM在形式化逻辑与符号运算能力的研究具有重要价值。

当前挑战

该数据集所解决的领域问题核心挑战在于，现有LLM在复杂数学竞赛题上常出现逻辑跳跃、符号误用或步骤缺失，难以保障推理的严谨性与最终答案的准确性。构建过程中面临的挑战主要包括：如何从大规模模型生成样本中甄别出正确且推理过程完整的高质量结果，这依赖于精确的奖励模型设计；同时，HMMT题目本身难度极高，导致生成样本的奖励分数分布稀疏，有效样本获取成本巨大。此外，数据集的规模较小（仅224条），在微调时易引发过拟合，需谨慎平衡模型泛化能力与专项推理精度的提升。

常用场景

经典使用场景

该数据集专为评估与提升大语言模型在硬数学竞赛题目上的推理能力而设计，其中包含224道来自HMMT（哈佛-麻省理工数学锦标赛）的挑战性问题，由Qwen3-4B-Instruct模型生成并附带奖励评分。经典使用场景聚焦于数学推理的少样本或零样本评测、强化学习中的奖励建模，以及指令微调后的数学能力对比实验。研究者可借助该数据集测试模型在符号运算、代数构造与组合计数等高级数学任务上的表现，从而衡量泛化性而非简单记忆。

衍生相关工作

基于该数据集，研究者已衍生出多项经典工作，包括多阶段奖励建模训练策略、过程监督信号的学习方法，以及针对数学推理链的对抗性扰动增强技术。例如，相关工作探索了对比奖励对提升模型在竞赛数学上泛化能力的有效性，并提出了联合目标函数平衡正确性与推理效率。另有工作利用该数据集进行课程学习安排，逐步增加题目难度以获得更稳健的数学推理agent。

数据集最近研究