joyfine/router_PEFT_data_Math_5_shot_Qwen3-4B_aime

Name: joyfine/router_PEFT_data_Math_5_shot_Qwen3-4B_aime
Creator: joyfine
Published: 2026-04-30 18:20:10
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/joyfine/router_PEFT_data_Math_5_shot_Qwen3-4B_aime

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: answer dtype: int64 - name: source dtype: string - name: benchmark_prediction_vllm dtype: string - name: is_correct dtype: int64 splits: - name: train num_bytes: 25704464 num_examples: 860 download_size: 10023473 dataset_size: 25704464 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

joyfine

搜集汇总

数据集介绍

构建方式

该数据集构建于数学推理任务场景之下，旨在为参数高效微调（PEFT）中的路由策略提供精细化数据支撑。其核心构建方式为：以Qwen3-4B模型为基座，在AIME数学竞赛问题上采用5-shot提示策略生成推理路径，通过vLLM框架进行高效推理，并记录基准预测结果。每条样本包含数学问题、标准答案、来源标识、模型预测输出以及预测正确性标记，共计860条训练样本，数据规模约25MB。

特点

该数据集在数学推理评估领域展现出鲜明特点：其一，聚焦高难度竞赛数学问题（AIME），覆盖需要多步推理的复杂题型；其二，嵌入模型预测结果与正确性标签，可直接用于训练路由选择器，区分模型擅长与不擅长的样例；其三，附带5-shot上下文信息，支持小样本学习场景下的路由策略研究。这种精细化的标签设计使得数据集天然适配LLM路由系统的训练与评估。

使用方法

使用者可直接通过HuggingFace Datasets库加载该数据集，指定default配置即可获取train拆分中的860条样本。典型应用范式包括：基于'question'字段输入路由系统的查询特征，利用'is_correct'标签训练二分类路由模型，以决定是否将当前问题路由至Qwen3-4B处理或转交更强模型。此外，'benchmark_prediction_vllm'字段可用于对比路由决策与实际推理表现，支持离线策略优化与分析。

背景与挑战

背景概述

在人工智能领域，数学推理能力被视为评估大语言模型（LLM）认知水平的核心基准之一，尤其在高难度竞赛如AIME（American Invitational Mathematics Examination）中，模型需具备严谨的逻辑推导与多步计算能力。router_PEFT_data_Math_5_shot_Qwen3-4B_aime数据集由研究团队于近期创建，聚焦于Qwen3-4B模型在数学任务上的参数高效微调（PEFT）与路由机制探索。该数据集包含860道源自AIME竞赛的题目及其对应答案，并附带模型预测结果与正确性标签，旨在推动LLM在复杂数学推理中的性能优化与可控性研究。其发布为领域内提供了标准化评测基准，促进了针对中小规模模型在专项能力提升上的方法论创新。

当前挑战

该数据集所解决的领域问题核心在于数学推理的精度与泛化能力，传统微调方法往往导致灾难性遗忘或资源消耗过高，而PEFT与路由机制需在有限样本下平衡模型对复杂题型的适应性与对原始能力的保持。构建过程中，数据采集面临AIME题目本身数量稀少、难度分层不均衡的挑战，仅860条样本需覆盖多样化的数学分支与解题策略。此外，答案标记为整数（int64）的特性要求严格验证模型输出的数值准确性，而预测结果字段（benchmark_prediction_vllm）的引入加大了错误格式与逻辑谬误的清洗难度，最终需确保数据集既适合监督学习又兼容路由决策评估。

常用场景

经典使用场景

该数据集专为数学推理场景中的模型适应性微调（PEFT）而设计，基于Qwen3-4B模型在AIME竞赛题上的5-shot表现构建。其经典使用场景包括评估和提升大语言模型在复杂数学问题上的推理准确性，通过记录模型对每个问题的原始预测结果（benchmark_prediction_vllm）和正确性标签（is_correct），为参数高效的微调策略（如LoRA、Adapter）提供训练样本。研究者可依据此数据集对轻量级模型进行定向优化，使其在数学推理任务中达到接近或超越更大模型的性能，同时保持较低的计算资源消耗。

解决学术问题

该数据集主要解决了大语言模型在数学推理领域面临的两大核心问题：样本效率与推理准确性之间的矛盾，以及轻量级模型在复杂任务上的性能瓶颈。通过提供经过筛选的高质量数学问题及其模型预测结果，它使学术研究能够深入探讨PEFT方法如何在不改变模型整体架构的前提下，精准修正模型在数学推理中的错误模式。其意义在于为理解小样本学习中的知识迁移机制、探索模型对数学逻辑的隐含理解能力，以及量化不同微调策略对推理稳定性的影响，提供了标准化的实验基准，推动了数学推理领域可解释性和可靠性研究的进展。

衍生相关工作

该数据集的构建沿袭了PEFT领域与数学推理评估的交叉研究方向，衍生出一系列经典工作。例如，基于此数据集，研究者发展出混合微调策略，将指令微调与任务特定适配层结合，在AIME等竞赛题集上验证效果。同时，围绕该数据集的“问题-预测-正确性”三元结构，催生了数学推理错误模式分类法，以及动态样本加权算法来优化微调过程。此外，该数据集常被用作验证新提出的稀疏PEFT方法的基准，并与ICML、NeurIPS等顶会中涌现的推理增强技术（如思维链引导、蒙特卡洛树搜索）进行对比分析，推动了数学推理模型的系统性进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集