InstructGpt-NaturalQa
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/amd/InstructGpt-NaturalQa
下载链接
链接失效反馈官方服务:
资源简介:
LuminaSFT 是一个专为小型语言模型(SLMs)设计的合成监督微调(SFT)数据集集合,通过教师引导的数据再生和任务特定的合成数据生成方法创建。该集合包含五个数据集:1) UltraChat200K-regenerated,通过DeepSeek-V3教师模型从UltraChat风格提示中再生通用指令数据;2) InstructGpt-NaturalQa,使用DeepSeek-V3教师模型从NaturalQA训练分割生成合成事实问答数据;3) InstructGpt-TriviaQa,同样使用DeepSeek-V3从TriviaQA训练分割生成合成事实问答数据;4) Cot-Drop,使用Qwen/Qwen3-30B-A3B-Instruct-2507教师模型从DROP训练分割生成带有明确思维链的阅读理解数据;5) InstructGpt-educational,完全合成的教育问答数据,使用结构化多步提示生成,无种子数据。这些数据集适用于文本生成、问答和阅读理解等任务,采用CC-BY-SA-3.0许可。
提供机构:
AMD
创建时间:
2026-02-11
搜集汇总
数据集介绍

构建方式
在知识密集型问答领域,高质量指令数据的稀缺性促使研究者探索合成数据生成路径。InstructGpt-NaturalQa数据集采用自指令式提示方法构建,其核心流程是以DeepSeek-V3作为教师模型,对原始NaturalQA训练集进行知识蒸馏与重构。该方法并非简单复制原有问答对,而是通过精心设计的提示模板,引导大语言模型基于原始问题生成风格一致、内容丰富的合成答案,从而在保留事实准确性的同时,拓展了指令的多样性与复杂性。
特点
作为LuminaSFT项目的重要组成部分,该数据集专为小型语言模型的监督微调而设计,其突出特点在于聚焦事实性问答任务。数据集中的样本均源于权威的NaturalQA语料,确保了问题背景的真实性与知识覆盖面。通过教师模型引导的合成过程,生成的答案不仅与问题高度相关,更在语言表达上呈现出符合指令跟随要求的规范化格式,为模型提供了学习如何依据事实进行严谨回答的优质范例。
使用方法
该数据集主要应用于语言模型的指令微调阶段,旨在提升模型在开放域事实性问答任务上的性能。研究人员可直接将其作为训练数据,输入给待微调的小型语言模型,以学习从问题到答案的映射关系与应答格式。在实际使用中,建议将本数据集与其他领域的指令数据结合,以构建更为均衡和全面的训练集,从而避免模型过度偏向单一任务,促进其泛化能力的提升。
背景与挑战
背景概述
在自然语言处理领域,高质量指令微调数据的稀缺性长期制约着小语言模型的性能提升。InstructGpt-NaturalQa数据集作为LuminaSFT项目的重要组成部分,由研究团队于2025年前后创建,旨在通过教师引导的数据再生技术,为小语言模型提供合成的事实性问答训练资源。该数据集以经典的NaturalQA训练集为种子,采用自指令式提示方法,并借助DeepSeek-V3作为教师模型进行数据生成,其核心研究聚焦于如何高效地扩充事实性知识问答的指令数据规模,从而增强模型在开放域知识检索与准确回答方面的能力,对推动小参数规模语言模型的实用化发展具有显著影响。
当前挑战
该数据集致力于应对事实性问答任务中的核心挑战,即模型需要从海量知识中精准定位并生成准确、可靠的答案,同时避免产生幻觉或传播错误信息。在构建过程中,挑战主要源于如何确保合成数据的高保真度与多样性。具体而言,其一是依赖教师模型(DeepSeek-V3)进行数据再生时,需克服教师模型自身知识边界与潜在偏见对生成数据质量的影响;其二是以NaturalQA为种子进行转换时,需在保持原始问题事实核心不变的前提下,有效重构指令格式并引入足够的语言变异,以提升数据的泛化训练价值。
常用场景
经典使用场景
在自然语言处理领域,InstructGpt-NaturalQa数据集专为事实性问答任务而设计,其经典使用场景在于为小型语言模型提供高质量的指令微调数据。通过采用自指令风格提示和DeepSeek-V3作为教师模型,该数据集从NaturalQA训练分割中生成合成问答对,有效模拟了真实世界中的知识查询与响应交互。这一过程不仅增强了模型对事实性知识的理解与生成能力,还为研究者在受限计算资源下优化模型性能提供了标准化基准,推动了高效模型训练方法的发展。
实际应用
在实际应用中,InstructGpt-NaturalQa数据集可广泛应用于智能助手、教育科技和信息检索系统。例如,在开发面向教育领域的问答机器人时,该数据集能够帮助模型准确回答基于事实的学科问题,提升用户体验。同时,它也可用于增强搜索引擎的答案生成功能,为用户提供即时、可靠的知识解答。这些应用不仅降低了部署高性能语言模型的成本,还促进了人工智能技术在日常场景中的普及与落地。
衍生相关工作
围绕InstructGpt-NaturalQa数据集,衍生出了一系列经典研究工作,特别是在小型语言模型的指令微调与合成数据生成领域。例如,Instella系列模型利用该数据集进行训练,展示了在开放语言模型架构下实现卓越性能的潜力。此外,相关研究还探索了教师模型引导的数据再生策略如何提升下游任务的准确性,以及合成数据在不同领域问答任务中的迁移效果。这些工作共同推动了数据高效学习与模型轻量化技术的发展。
以上内容由遇见数据集搜集并总结生成



