smol-smoltalk-Interaction-SFT

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/ReactiveAI/smol-smoltalk-Interaction-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为ReactiveAI/Smol-Smoltalk Interaction SFT设计的交互式监督微调数据集。数据集由query和answer字段组成，包含了从原始JSON格式对话数据中提取的用户与助手之间的交互信息。数据集用于训练小规模研究模型，不适用于生产模型。数据集语言为英语，遵循Apache-2.0许可。

创建时间：

2025-05-10

原始信息汇总

数据集概述：ReactiveAI/smol-smoltalk-Interaction-SFT

数据集描述

目的：用于交互式监督微调（SFT）的Reactive Transformer概念验证模型，特别是RxT-Alpha。
来源：基于HuggingFaceTB/smol-smoltalk数据集派生，专为处理单次交互的实时反应模型设计。
语言：仅包含英文内容。
许可证：Apache-2.0。

数据集结构

特征：
- query：字符串类型，表示用户查询。
- answer：字符串类型，表示助手回答。
- source：字符串类型，标识数据来源。
数据划分：
- 训练集（train）：1,031,866条样本，大小约1.79GB。
- 验证集（validation）：54,103条样本，大小约93.7MB。
总大小：下载大小约1.0GB，数据集总大小约1.89GB。

数据集来源

原始数据集：HuggingFaceTB/smol-smoltalk
扩展版本：HuggingFaceTB/smoltalk

使用场景

直接用途：适用于训练小规模研究模型。
非适用场景：数据量较小，不适用于生产模型。

引用信息

text @misc{allal2025smollm2smolgoesbig, title={SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model}, author={Loubna Ben Allal and Anton Lozhkov and Elie Bakouch and Gabriel Martín Blázquez and Guilherme Penedo and Lewis Tunstall and Andrés Marafioti and Hynek Kydlíček and Agustín Piqueres Lajarín and Vaibhav Srivastav and Joshua Lochner and Caleb Fahlgren and Xuan-Son Nguyen and Clémentine Fourrier and Ben Burtenshaw and Hugo Larcher and Haojun Zhao and Cyril Zakka and Mathieu Morlon and Colin Raffel and Leandro von Werra and Thomas Wolf}, year={2025}, eprint={2502.02737}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.02737}, }

搜集汇总

数据集介绍

构建方式

该数据集源自HuggingFaceTB/smol-smoltalk，专为交互式监督微调（SFT）而设计，尤其适用于Reactive Transformer概念验证模型。原始数据集包含完整的对话消息，采用JSON格式，涵盖不同角色的消息。由于Reactive模型不使用系统提示，因此本数据集剔除了原始数据中的系统提示部分，仅保留连续的用户和助手消息对，并将其分别映射到查询和响应字段。每个交互被视为独立单元，以适应SFT阶段模型尚未启用记忆功能的特性。

特点

数据集聚焦于英语交互文本，包含103万训练样本和5.4万验证样本，采用Apache-2.0许可协议。其显著特点在于专为小规模研究模型优化，对话长度较原始版本更短，且剔除了函数调用、复杂数学等专业内容，以适配参数量小于10亿的轻量级模型。每条记录均保留原始数据源的标记，便于追踪数据谱系，同时严格遵循单轮交互的格式规范，为实时处理的反应式模型提供标准化训练素材。

使用方法

该数据集适用于反应式Transformer模型的监督微调阶段，需以单轮交互形式加载使用。典型流程包括：通过HuggingFace数据集库加载train/validation分割，提取query-answer字段对作为输入输出样本。训练时应确保模型仅处理当前交互，不依赖历史上下文。由于数据规模限制，建议优先用于学术研究或概念验证，生产环境需配合更大规模数据微调。使用时可参考原始论文中SmolLM2的训练方法，注意遵守Apache-2.0许可证规定的使用条款。

背景与挑战

背景概述

smol-smoltalk-Interaction-SFT数据集由HuggingFace团队开发，旨在为反应式Transformer模型的交互式监督微调提供支持。该数据集源自HuggingFaceTB/smol-smoltalk，专为研究型小规模模型设计，尤其适用于参数少于10亿的模型。数据集的核心研究问题在于如何通过单次交互数据优化模型的实时处理能力，同时利用短期记忆存储历史交互信息。该数据集在自然语言处理领域具有重要价值，特别是在小规模语言模型的训练与优化方面。

当前挑战

该数据集面临的挑战主要包括两方面：其一，在领域问题层面，反应式Transformer模型需要处理单次交互的实时性要求，同时确保短期记忆的有效利用，这对模型的架构和训练方法提出了较高要求；其二，在构建过程中，数据集的创建者需从原始对话数据中提取独立的交互对，并排除系统提示信息，这一过程需要精细的数据清洗与标注工作。此外，数据集的规模限制也使其难以直接应用于生产环境，进一步增加了其应用挑战。

常用场景

经典使用场景

在自然语言处理领域，smol-smoltalk-Interaction-SFT数据集专为交互式监督微调而设计，尤其适用于实时处理单次交互的Reactive Transformer模型。该数据集通过提取原始对话中的连续用户-助手消息对，构建了独立的查询-应答样本，为模型在初始微调阶段提供了标准化的交互格式训练数据。这种处理方式使得研究人员能够在不涉及记忆机制的情况下，专注于模型对即时交互的响应能力训练。

衍生相关工作

该数据集已催生多项重要研究成果，最典型的是SmolLM2系列轻量级指令模型的开发。相关团队在此基础上相继推出了360M和135M参数规模的Instruct版本模型，并通过后续的DPO优化流程验证了数据集的扩展价值。这些工作为小模型在特定垂直领域的应用提供了重要参考，推动了数据高效型语言模型训练方法的发展。

数据集最近研究