smol-smoltalk-mini-Interaction-SFT
收藏Hugging Face2025-05-17 更新2025-05-18 收录
下载链接:
https://huggingface.co/datasets/ReactiveAI/smol-smoltalk-mini-Interaction-SFT
下载链接
链接失效反馈官方服务:
资源简介:
ReactiveAI/Smol-Smoltalk-Mini Interaction SFT数据集是从HuggingFaceTB/smol-smoltalk派生的,专为交互式监督微调Reactive Transformer模型设计。该数据集只包含单个交互,每个交互由查询和回答字段组成,适合用于小规模研究模型训练。
The ReactiveAI/Smol-Smoltalk-Mini Interaction SFT dataset is derived from HuggingFaceTB/smol-smoltalk, and is specifically designed for interactive supervised fine-tuning of Reactive Transformer models. This dataset only contains single-turn interactions, each of which consists of a query field and an answer field, making it suitable for small-scale research model training.
创建时间:
2025-05-10
原始信息汇总
数据集概述:ReactiveAI/Smol-Smoltalk-Mini Interaction SFT
数据集基本信息
- 许可证: Apache-2.0
- 语言: 英语 (en)
- 任务类别: 问答、文本生成、文本到文本生成、填充掩码
- 规模分类: 100K<n<1M
数据集结构
特征
query: 字符串类型answer: 字符串类型source: 字符串类型
数据分片
- 训练集 (train):
- 样本数量: 257,560
- 字节大小: 446,294,324
- 验证集 (validation):
- 样本数量: 13,434
- 字节大小: 23,505,861
下载与存储
- 下载大小: 250,122,365 字节
- 数据集大小: 469,800,185 字节
数据集描述
来源与衍生
- 衍生自: HuggingFaceTB/smol-smoltalk (使用了25%的训练和测试分片)
- 扩展版本: HuggingFaceTB/smoltalk
用途
- 专为反应式模型的监督微调设计,处理单次交互,不包含系统提示。
- 每条记录包含独立的
query和answer字段,无上下文关联。
适用场景
- 直接用途: 适用于小规模研究模型训练。
- 非适用场景: 数据量较小,不适用于生产模型。
引用信息
text @misc{allal2025smollm2smolgoesbig, title={SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model}, author={Loubna Ben Allal and Anton Lozhkov and Elie Bakouch and Gabriel Martín Blázquez and Guilherme Penedo and Lewis Tunstall and Andrés Marafioti and Hynek Kydlíček and Agustín Piqueres Lajarín and Vaibhav Srivastav and Joshua Lochner and Caleb Fahlgren and Xuan-Son Nguyen and Clémentine Fourrier and Ben Burtenshaw and Hugo Larcher and Haojun Zhao and Cyril Zakka and Mathieu Morlon and Colin Raffel and Leandro von Werra and Thomas Wolf}, year={2025}, eprint={2502.02737}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.02737}, }
搜集汇总
数据集介绍

构建方式
该数据集源自HuggingFaceTB/smol-smoltalk,经过精选处理,仅保留了25%的训练和测试数据。其构建过程专注于为交互式监督微调(Interaction Supervised Fine-Tuning)提供支持,尤其适用于Reactive Transformer概念模型的训练。原始数据集中的对话以JSON格式存储,包含不同角色的消息。为了适应Reactive模型的需求,该数据集剔除了系统提示(system prompts),并将连续的用户(user)和助手(assistant)消息对分别映射到查询(query)和响应(answer)字段中,确保每条交互独立处理。
特点
该数据集专为小型研究模型设计,具有鲜明的轻量化特征。其内容以英文为主,包含257,560条训练样本和13,434条验证样本,总数据量约为469MB。数据集结构简洁,每条记录包含查询、回答及来源字段,便于模型快速处理。相较于原始数据集,该版本缩短了对话长度,减少了任务特定数据(如函数调用和数学相关内容),更适配参数规模小于10亿的小型语言模型。数据来源清晰标注,遵循Apache-2.0许可协议,确保了学术研究的合规性。
使用方法
该数据集主要用于小型反应式模型的监督微调阶段。使用时需将数据加载至支持文本生成或问答任务的框架中,通过提取query-answer字段对进行单轮交互训练。由于数据已预处理为独立交互单元,可直接输入模型无需额外分割。建议配合PyTorch或TensorFlow等深度学习框架使用,并参考原始数据集的文档说明以了解详细内容组成。需注意该数据规模不适合生产级模型训练,仅推荐用于概念验证或小规模研究项目。
背景与挑战
背景概述
smol-smoltalk-mini-Interaction-SFT数据集由ReactiveAI团队基于HuggingFaceTB/smol-smoltalk数据集构建,旨在为反应式变压器(Reactive Transformer)的概念验证模型提供交互式监督微调数据。该数据集创建于2025年,主要研究人员包括Loubna Ben Allal、Anton Lozhkov等来自HuggingFace的多位专家。其核心研究问题聚焦于如何通过单次交互数据训练小型语言模型,使其在实时处理中利用短期记忆存储历史信息。作为针对参数少于10亿的小型模型优化的数据集,它在自然语言处理领域为资源受限环境下的对话生成和问答任务提供了重要基准。
当前挑战
该数据集面临的主要挑战体现在两个方面:领域问题层面,反应式模型需要解决单次交互与连续对话间的语义连贯性问题,而当前数据以独立问答对形式存在,难以捕捉长程依赖;构建过程层面,原始对话数据中的系统提示被剔除可能导致上下文信息缺失,且数据规模较小(仅25万条训练样本)限制了模型的泛化能力。此外,数据来源的异构性(如剔除数学推理和函数调用等复杂任务)使得模型在特定任务上的表现受到制约。
常用场景
经典使用场景
在自然语言处理领域,smol-smoltalk-mini-Interaction-SFT数据集主要用于小型语言模型的监督微调。该数据集通过提取原始对话中的用户查询和助手回应,构建了独立的交互对,特别适用于实时处理单一交互的Reactive Transformer模型。这种设计使得模型能够在初始训练阶段专注于理解并生成单轮对话响应,为后续引入短期记忆机制奠定基础。
衍生相关工作
该数据集的衍生研究显著推动了轻量级语言模型的发展。基于其前身smol-smoltalk数据集,研究者先后开发出SmolLM2-360M-Instruct等知名模型。相关成果被应用于对话系统优化、响应质量评估等多个方向,为后续UltraFeedback等强化学习框架提供了重要基线数据。
数据集最近研究
最新研究方向
在自然语言处理领域,smol-smoltalk-mini-Interaction-SFT数据集的最新研究方向聚焦于轻量级反应式Transformer模型的监督微调技术。该数据集通过提取对话中的单轮交互数据,为RxT-Alpha-Mini等新型架构提供训练基础,这些模型摒弃了传统系统提示,转而采用短期记忆机制实现上下文关联。当前研究热点在于探索如何通过这种去中心化的交互式训练范式,在保持模型轻量化的同时提升多轮对话的连贯性。随着参数规模小于10亿的轻量化模型成为边缘计算场景的研究重点,该数据集在实现设备端实时对话系统方面展现出独特价值,为模型压缩与知识蒸馏技术提供了新的实验平台。
以上内容由遇见数据集搜集并总结生成



