five

joyfine/router_SFT_self_generated_data_mmlu_pro_science_Qwen3-4B_aime

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/joyfine/router_SFT_self_generated_data_mmlu_pro_science_Qwen3-4B_aime
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question dtype: string - name: answer dtype: int64 - name: source dtype: string - name: benchmark_prediction_vllm dtype: string - name: is_correct dtype: int64 - name: SFT_analysis dtype: string splits: - name: train num_bytes: 26862867 num_examples: 860 download_size: 10531934 dataset_size: 26862867 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
joyfine
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以科学领域(MMLU-Pro Science)为背景,通过路由策略与自我生成(Self-Generated)技术构建而成。具体而言,以Qwen3-4B模型作为基础生成器,针对AIME(美国数学邀请赛)难度的科学问题,首先由模型自主产生候选答案及推理过程,再经由基准预测(benchmark_prediction_vllm)与正确性校验(is_correct)进行过滤与标注,最终形成了包含860条样本的高质量监督微调(SFT)数据集。每条记录包含问题(question)、标准答案(answer)、来源标记(source)、模型预测输出(benchmark_prediction_vllm)、正确性标签(is_correct)以及SFT分析字段(SFT_analysis),结构清晰且标注严谨。
使用方法
该数据集以HuggingFace标准格式存储,仅包含训练集(train split),共860条样本,文件采用parquet格式分片保存(data/train-*)。使用者可通过datasets库直接加载,例如`load_dataset(‘router_SFT_self_generated_data_mmlu_pro_science_Qwen3-4B_aime’)`。在微调过程中,可利用question字段作为输入、answer字段作为监督标签,同时可借助benchmark_prediction_vllm与is_correct字段评估模型当前的推理能力与预训练一致性。SFT_analysis字段则适合用于深入分析生成样本的质量与错误类型,为后续的定向优化提供可解释的反馈依据。
背景与挑战
背景概述
该数据集由Qwen团队于2025年创建,聚焦于大语言模型在科学领域的高阶推理能力。其核心研究问题在于如何通过自生成数据微调(自我博弈范式),提升模型在MMLU-Pro科学子集与AIME数学竞赛题上的表现。数据集包含860条训练样本,每条样本由科学或数学问题、标准答案及模型预测的对比分析构成,为强化学习与监督微调的结合提供了精细化的训练基础。作为路由器监督微调策略的一部分,该数据集旨在解决大模型在多领域知识混合训练中的灾难性遗忘问题,尤其针对数学与科学推理的精准度提升,对推动LLM在专业学科中的应用具有重要价值。
当前挑战
该数据集面临的首要挑战是领域问题中的长链推理与符号逻辑错误:MMLU-Pro科学题目涉及复杂学科常识的交叉验证,而AIME数学题需多步推导且易出现计算累积误差,传统监督微调难以纠正模型的系统性推理偏差。构建过程中,数据平衡性是一大难点——860条样本需覆盖物理、化学、生物等科学子域与竞赛数学,但各领域知识分布不均导致模型可能偏向高频领域;此外,自生成数据的质量验证依赖基准测试的自动评估,难以确保每条样本的推理路径与标准答案逻辑一致,人工核验成本与错误传播风险并存。
常用场景
经典使用场景
该数据集聚焦于科学领域的多项选择题推理能力,尤其适用于评估和微调大语言模型在复杂科学知识上的表现。通过将MMLU-Pro科学子集与自生成数据结合,并引入AIME竞赛风格的推理任务,数据集为模型在高级科学问题上的逻辑推导提供了标准化测试基准。其经典使用场景包括:作为监督微调(SFT)的标注数据源,用于增强模型对科学事实的准确记忆与多步推理能力;同时可作为评估集,用于检验模型在零样本或微调后对高难度科学问题的回答正确率。数据集中包含的预测结果与正确性标注,进一步支持对比不同架构或训练策略的模型在科学领域上的性能差异,从而推动科学推理能力的量化研究。
解决学术问题
该数据集有效缓解了现有科学推理基准中难度不足或领域覆盖狭窄的问题,为学术界提供了一个高难度、细粒度的科学知识推理测试平台。其核心学术价值在于:第一,解决了大语言模型在专业科学领域(如物理、化学、生物)中深层逻辑推理能力难以测度的问题,通过结合MMLU-Pro的严谨学科框架与AIME的竞赛级题目,建立起从事实记忆到复杂推导的完整评估链条。第二,支持对模型错误模式的系统性分析,借助SFT_analysis字段,研究者可深入剖析模型在科学推理中常见的幻觉、计算错误或逻辑断裂现象。第三,为模型蒸馏、数据增强及课程学习等研究方向提供了高质量的种子数据,推动了科学推理领域从准确率指标向推理可解释性研究的范式转变。
实际应用
在实际应用中,该数据集可嵌入智能教育系统,作为自适应学习引擎的推理题库,用于诊断学生在科学学科中的薄弱环节。教育科技公司可利用其中标注的模型预测结果,自动生成个性化的错题集与概念解析,提升辅导效率。对于科研机构,该数据集可作为科学问答系统的验证工具,例如在医疗诊断辅助、化学分子性质预测或物理模拟校准等场景中,评估模型输出是否符合学科规律。此外,工业界可借助该数据集微调领域专用模型,例如在药物发现中筛选候选分子的生化性质推理,或在航天工程中验证物理参数计算的准确性,从而将大语言模型从通用问答推进至专业科学协作的实用阶段。
数据集最近研究
最新研究方向
该数据集聚焦于科学领域大语言模型(LLM)的自我改进与路由机制优化,通过Qwen3-4B模型对MMLU-Pro科学子集进行自生成问答,并结合AIME(自适应推理与记忆增强)策略,探索了模型在科学推理任务中的自监督学习路径。当前前沿方向包括:利用自生成数据进行轻量级模型的知识蒸馏与专家路由训练,以降低对人工标注的依赖;同时,结合benchmark预测与正确性验证(is_correct字段),研究模型自我纠错与迭代优化能力。这一工作呼应了近期LLM领域“小模型高效推理”与“自进化”热点,通过分析SFT(监督微调)中的错误模式,推动了科学问答系统在成本可控下的可靠性提升,为边缘部署与科学辅助决策提供了可扩展的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作