joyfine/router_SFT_larger_model_generated_data_mmlu_pro_science_Qwen3-4B_aime

Name: joyfine/router_SFT_larger_model_generated_data_mmlu_pro_science_Qwen3-4B_aime
Creator: joyfine
Published: 2026-04-30 22:58:22
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/joyfine/router_SFT_larger_model_generated_data_mmlu_pro_science_Qwen3-4B_aime

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: answer dtype: int64 - name: source dtype: string - name: benchmark_prediction_vllm dtype: string - name: is_correct dtype: int64 - name: SFT_analysis dtype: string splits: - name: train num_bytes: 26845221 num_examples: 860 download_size: 10566213 dataset_size: 26845221 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

joyfine

搜集汇总

数据集介绍

构建方式

本数据集专注于科学推理领域，旨在提升模型在复杂数学与科学问题上的表现。其构建过程基于MMLU-Pro科学子集与AIME竞赛题目，利用Qwen3-4B大语言模型对原始问题进行答案生成，随后通过路由机制（Router）筛选出高质量且正确的模型输出，形成最终的监督微调（SFT）数据。数据集包含860条训练样本，每条样本涵盖问题文本、答案标签、来源标识、模型预测结果及正确性判断，确保数据质量与多样性。

特点

该数据集的特点在于其针对性与专业性：聚焦于高难度科学推理任务，如数学竞赛与跨学科科学问题，且仅收录模型正确回答的样本，从而为微调提供纯净的正向信号。数据集中包含详细的SFT分析字段，便于研究者评估模型在不同科学问题上的表现模式。此外，数据规模紧凑但高质，每条样本均附带来源追踪，支持细粒度的错误分析与性能优化。

使用方法

本数据集可直接用于监督微调训练，适用于需要增强科学推理能力的语言模型。使用时需加载JSON格式数据，其中'question'字段作为输入，'answer'字段作为监督标签。研究者可结合'benchmark_prediction_vllm'与'is_correct'字段进行模型诊断，或根据'source'字段划分不同科学子领域进行专项训练。推荐将数据集按80/20比例分割为训练集与验证集，以监控过拟合风险。

背景与挑战

背景概述

在大型语言模型的微调过程中，高质量监督微调（SFT）数据的获取与筛选是提升模型科学推理能力的关键瓶颈。该数据集由研究团队于近期创建，聚焦于Qwen3-4B模型在多学科科学问题（源自MMLU-Pro基准）上的生成数据，特别整合了AIME（美国邀请数学考试）类复杂推理题目。其核心研究问题在于通过路由策略（router）筛选更大模型生成的监督数据，以优化小模型的科学推理表现。该数据集通过引入benchmark_prediction_vllm及SFT_analysis等字段，为分析模型预测正确性与微调效果提供了结构化支持，在提升模型在数学、物理等科学领域泛化能力方面具有显著研究价值。

当前挑战

该数据集的构建与使用面临多重挑战。在领域问题层面，科学推理任务要求模型具备严格的逻辑演绎与多步计算能力，而现有监督数据常因推理链条不完整或噪声标注导致微调后的模型泛化性能欠佳，如何从更大模型生成的庞杂数据中精准筛选出对科学问题有效的SFT样本是核心难题。在构建过程中，路由策略的设计本身即为挑战：需要平衡数据量（860条）与覆盖度，避免过度拟合特定题型；同时，确保从vllm推理结果中提取的预测字段与原始问题的语义一致性，并可靠标注is_correct字段，以支撑后续的微调效果归因分析。

常用场景

经典使用场景

在科学推理与数学问题求解的交叉领域，router_SFT_larger_model_generated_data_mmlu_pro_science_Qwen3-4B_aime数据集常被用于微调语言模型的符号推理能力。该数据集以MMLU-Pro中的科学题目和AIME数学竞赛问题为基底，通过更大模型生成监督信号，形成了一种知识蒸馏式的训练范式。研究者利用这些高质量的问答对，训练较小的模型（如Qwen3-4B）在复杂科学问题上的推理准确性，从而提升其在零样本或少样本场景下的逻辑推断与数字运算表现。

衍生相关工作

围绕该数据集已衍生出若干代表性工作。一类研究关注模型在混合数据分布下的多任务学习能力，例如将科学推理与代码生成联合微调，探索跨域知识迁移的通用范式。另一类工作则致力于分析大模型生成数据中的噪声模式及其对微调效果的影响，提出了基于置信度过滤与一致性校验的数据清洗策略。此外，router_SFT_larger_model_generated_data也被用于验证稀疏路由机制的有效性，通过激活特定专家模块来处理科学问题，从而在保持性能的同时大幅降低计算开销。

数据集最近研究