UltraChat200K-regenerated
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/amd/UltraChat200K-regenerated
下载链接
链接失效反馈官方服务:
资源简介:
LuminaSFT 是一个专为小型语言模型(SLMs)设计的合成监督微调(SFT)数据集集合,通过教师引导的数据再生和任务特定的合成数据生成方法创建。该集合包含五个数据集:1) UltraChat200K-regenerated:基于UltraChat风格提示的通用指令数据,使用DeepSeek-V3作为教师模型重新生成响应;2) InstructGpt-NaturalQa:基于NaturalQA训练集生成的合成事实问答数据;3) InstructGpt-TriviaQa:基于TriviaQA训练集生成的合成事实问答数据;4) Cot-Drop:基于DROP训练集生成的阅读理解数据,带有明确的思维链推理;5) InstructGpt-educational:完全合成的教育问答数据,包含三个文件,涵盖考试/跟踪→主题→问题的结构化多步提示。所有数据集均采用Open RAIL-D许可证。
LuminaSFT is a curated collection of synthetic supervised fine-tuning (SFT) datasets tailored for small language models (SLMs), developed via teacher-guided data regeneration and task-specific synthetic data generation approaches. This collection includes five datasets:
1) UltraChat200K-regenerated: General instruction data based on UltraChat-style prompts, with responses regenerated using DeepSeek-V3 as the teacher model;
2) InstructGpt-NaturalQa: Synthetic factual question-answering data generated from the NaturalQA training set;
3) InstructGpt-TriviaQa: Synthetic factual question-answering data generated from the TriviaQA training set;
4) Cot-Drop: Reading comprehension data generated from the DROP training set, with explicit chain-of-thought reasoning;
5) InstructGpt-educational: Fully synthetic educational question-answering data consisting of three files, covering structured multi-step prompts ranging from exams/quizzes to topics to questions.
All datasets are licensed under the Open RAIL-D license.
提供机构:
AMD
创建时间:
2026-02-11
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量指令数据的获取对于小型语言模型的监督微调至关重要。UltraChat200K-regenerated数据集采用教师引导的数据再生策略构建,其核心流程是保留原始UltraChat风格的提示,仅利用强大的DeepSeek-V3模型作为教师,对模型的响应部分进行重新生成。这种方法旨在通过先进模型的推理能力,提升原始对话数据的质量与一致性,从而为模型训练提供更为精炼的通用指令遵循样本。
使用方法
研究者可将该数据集直接应用于小型语言模型的监督微调阶段,以增强其遵循指令与进行对话的能力。典型的使用流程是将其与基础预训练模型结合,通过标准的因果语言建模目标进行训练,即让模型学习根据给定的提示生成再生的高质量响应。由于数据已预先处理为指令-响应对格式,因此能够便捷地集成到主流训练框架中,用于提升模型在多种下游任务上的泛化性能。
背景与挑战
背景概述
在自然语言处理领域,指令微调数据集的构建对于提升模型遵循人类指令的能力至关重要。UltraChat200K-regenerated 作为 LuminaSFT 项目的一部分,由 Instella 研究团队于 2025 年发布,旨在通过教师引导的数据再生技术,为小型语言模型提供高质量的通用指令微调数据。该数据集以 UltraChat 风格的提示为基础,利用 DeepSeek-V3 作为教师模型重新生成响应,其核心研究问题聚焦于如何通过合成数据生成方法,有效克服高质量人工标注数据的稀缺性,从而推动小型语言模型在多样化任务上的性能提升,对开源模型社区的发展产生了积极影响。
当前挑战
该数据集致力于解决通用指令跟随任务的挑战,其核心在于如何生成既多样化又高质量的指令-响应对,以覆盖广泛的用户意图和复杂场景,同时确保响应的准确性、连贯性与安全性。在构建过程中,研究团队面临的主要挑战包括:依赖教师模型(DeepSeek-V3)的质量可能导致再生数据继承或放大原有模型的偏见与错误;在保留原始提示的同时生成新颖且优质的响应,需要精细的提示工程与质量控制策略;此外,如何确保合成数据在事实性、逻辑性和教育价值等方面达到与人工标注数据相媲美的标准,也是一个持续性的技术难题。
常用场景
经典使用场景
在自然语言处理领域,指令微调是提升模型遵循人类意图能力的关键技术。UltraChat200K-regenerated作为通用指令数据集,其经典使用场景在于为小型语言模型提供高质量的监督微调数据。通过采用DeepSeek-V3作为教师模型对原始UltraChat风格提示的响应进行再生,该数据集能够生成多样化且符合指令的对话样本,广泛应用于模型对齐、指令遵循能力优化等研究任务中,为模型在开放域对话场景下的性能提升奠定了数据基础。
解决学术问题
当前小型语言模型面临高质量指令数据稀缺的挑战,制约了其指令理解和执行能力的进一步发展。UltraChat200K-regenerated通过教师引导的数据再生策略,有效解决了合成数据质量参差不齐、与真实用户意图匹配度低等学术问题。该数据集不仅提供了大规模、高质量的指令-响应对,还通过保留原始提示、仅再生响应的方式,确保了数据多样性与指令忠实性,为探索数据再生技术对模型性能的影响、优化指令微调方法提供了重要的实验平台。
实际应用
在实际应用层面,UltraChat200K-regenerated为开发高效能的小型对话助手和专用领域语言模型提供了关键数据支持。基于该数据集微调的模型能够更好地理解用户指令,生成连贯、相关且有用的回应,可部署于智能客服、教育辅导、内容创作辅助等现实场景。其高质量的合成数据降低了模型训练对昂贵人工标注的依赖,使得资源受限的研究团队和企业也能构建具备良好指令遵循能力的语言模型,推动了对话式人工智能技术的普惠化发展。
数据集最近研究
最新研究方向
在小型语言模型(SLMs)的监督微调领域,UltraChat200K-regenerated数据集代表了当前合成数据生成的前沿方向。该数据集采用教师引导的再生策略,利用DeepSeek-V3等先进大模型对原始指令响应进行重构,旨在提升SLMs在通用对话任务中的泛化能力与指令遵循精度。这一方法呼应了业界对高效、低成本模型适配的热点需求,通过高质量合成数据缓解了对大规模人工标注的依赖,为资源受限环境下的模型优化提供了可行路径。其影响不仅体现在推动SLMs性能边界的拓展,更在于促进了数据生成范式从规模驱动向质量驱动的转变,为后续的指令微调与对齐研究奠定了关键的数据基础。
以上内容由遇见数据集搜集并总结生成



