five

InstructGpt-TriviaQa

收藏
Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/amd/InstructGpt-TriviaQa
下载链接
链接失效反馈
官方服务:
资源简介:
LuminaSFT 是一个专为小型语言模型(SLMs)设计的合成监督微调(SFT)数据集集合,通过教师引导的数据再生和任务特定的合成数据生成方法创建。该集合包含五个数据集:1)UltraChat200K-regenerated,基于UltraChat风格提示再生,保留原始提示仅再生响应;2)InstructGpt-NaturalQa,基于NaturalQA训练集生成的事实问答数据;3)InstructGpt-TriviaQa,基于TriviaQA训练集生成的事实问答数据;4)Cot-Drop,基于DROP训练集生成的带有明确思维链的阅读理解数据;5)InstructGpt-educational,完全合成的教育问答数据,包含三个文件,采用结构化多步提示生成。所有数据集均使用不同的教师模型生成,适用于文本生成、问答、阅读理解等任务。数据集采用Open RAIL-D许可证。
提供机构:
AMD
创建时间:
2026-02-11
搜集汇总
数据集介绍
main_image_url
构建方式
在知识密集型问答领域,高质量的训练数据对于提升模型的事实性推理能力至关重要。InstructGpt-TriviaQa数据集的构建采用了教师引导的合成数据生成范式,其核心流程是以经典的TriviaQA训练集分割作为知识种子。通过自指令风格的提示工程,驱动作为教师模型的大型语言模型DeepSeek-V3,对原始问题进行解析并生成结构化的指令-响应对。这一方法并非对原始数据的简单复现,而是利用先进模型的推理能力进行知识重组与指令化表达,从而创造出适用于监督微调的合成数据,为小型语言模型提供了高效的知识蒸馏路径。
特点
该数据集最显著的特征在于其专注于事实性问答任务,并采用了完全合成的数据生成方式。其内容根植于广为人知的TriviaQA语料库,确保了问题涵盖广泛的事实性知识领域。通过自指令提示技术生成的数据,天然具备了指令跟随的格式,可直接用于模型的指令微调。与原始数据集相比,合成过程可能引入了教师模型的语言风格与推理模式,使得生成的数据在保持事实准确性的同时,更贴合指令微调的训练目标,为小型语言模型提供了高质量、任务聚焦的监督信号。
使用方法
该数据集主要服务于小型语言模型的监督式微调,旨在提升模型在开放域事实性问答任务上的性能。研究人员和开发者可直接将数据集中结构化的指令-响应对用于模型训练。典型的使用流程包括加载数据集、按照标准指令微调框架进行数据预处理,并将其输入模型以优化其遵循指令并生成准确答案的能力。鉴于其合成性质,建议在使用时结合原始TriviaQA的验证集进行性能评估,以确保模型泛化能力的可靠性。该数据集为探索知识密集型任务上的高效模型微调提供了直接可用的资源。
背景与挑战
背景概述
在自然语言处理领域,指令微调数据集的构建对于提升小型语言模型的泛化与事实性推理能力至关重要。InstructGpt-TriviaQa数据集作为LuminaSFT项目的一部分,由研究团队于2025年基于TriviaQA训练集创建,其核心目标是通过教师引导的数据再生与任务特定合成技术,生成高质量的事实性问答数据。该数据集采用DeepSeek-V3作为教师模型,利用自指令式提示策略,旨在增强模型在开放域知识检索与精确答案生成方面的性能,为小型语言模型的监督微调提供了关键资源,推动了高效参数化模型在复杂问答任务中的应用边界。
当前挑战
该数据集致力于解决开放域事实性问答任务中的核心挑战,即模型需在庞大且异构的知识库中准确检索并生成简洁、可靠的答案,同时避免幻觉与信息冗余。在构建过程中,挑战主要集中于如何通过合成数据生成技术有效保留原始TriviaQA数据的复杂性与多样性,并确保教师模型输出的指令遵循性与事实准确性。此外,平衡数据规模与质量,以及处理合成过程中可能引入的偏差与噪声,亦是保障数据集可靠性与实用性的关键难点。
常用场景
经典使用场景
在自然语言处理领域,知识密集型问答任务常面临高质量监督数据的稀缺挑战。InstructGpt-TriviaQa数据集通过教师引导的合成数据生成技术,为小型语言模型提供了丰富的指令微调资源。该数据集基于TriviaQA训练分割,采用自指令风格提示,利用DeepSeek-V3作为教师模型生成合成事实问答对,专门用于提升模型在开放域事实性问答任务中的精确性和泛化能力。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在高效指令微调与合成数据质量评估领域。例如,Instella系列开源语言模型项目便利用了此类合成数据集进行训练,实现了与小参数模型相匹配的卓越性能。相关研究进一步探索了不同教师模型对合成数据多样性的影响、链式思维推理在事实问答中的注入方法,以及如何通过数据再生技术提升原始TriviaQA数据集的指令跟随能力,这些工作共同推动了小型化、高性能语言模型的发展轨迹。
数据集最近研究
最新研究方向
在自然语言处理领域,基于知识密集型问答任务的指令微调数据生成正成为推动小型语言模型性能提升的关键路径。InstructGpt-TriviaQa作为LuminaSFT系列中的合成事实问答数据集,其前沿研究聚焦于通过教师引导的数据再生技术,利用如DeepSeek-V3等先进大模型作为教师,对TriviaQA原始训练集进行自指令式提示重构,生成高质量、多样化的指令微调样本。这一方向紧密关联当前开源模型社区对高效、可扩展合成数据构建的热点探索,旨在突破小模型在事实性知识检索与推理上的瓶颈,为构建更精准、可靠的问答系统提供数据基础,对推动轻量级模型在实际应用中的部署具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作