smol-smoltalk-mini-Interaction-SFT

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/ReactiveAI/smol-smoltalk-mini-Interaction-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

ReactiveAI/Smol-Smoltalk-Mini Interaction SFT数据集是从HuggingFaceTB/smol-smoltalk派生的，专为交互式监督微调Reactive Transformer模型设计。该数据集只包含单个交互，每个交互由查询和回答字段组成，适合用于小规模研究模型训练。

The ReactiveAI/Smol-Smoltalk-Mini Interaction SFT dataset is derived from HuggingFaceTB/smol-smoltalk, and is specifically designed for interactive supervised fine-tuning of Reactive Transformer models. This dataset only contains single-turn interactions, each of which consists of a query field and an answer field, making it suitable for small-scale research model training.

创建时间：

2025-05-10

原始信息汇总

数据集概述：ReactiveAI/Smol-Smoltalk-Mini Interaction SFT

数据集基本信息

许可证: Apache-2.0
语言: 英语 (en)
任务类别: 问答、文本生成、文本到文本生成、填充掩码
规模分类: 100K<n<1M

数据集结构

特征

query: 字符串类型
answer: 字符串类型
source: 字符串类型

数据分片

训练集 (train):
- 样本数量: 257,560
- 字节大小: 446,294,324
验证集 (validation):
- 样本数量: 13,434
- 字节大小: 23,505,861

下载与存储

下载大小: 250,122,365 字节
数据集大小: 469,800,185 字节

数据集描述

来源与衍生

衍生自: HuggingFaceTB/smol-smoltalk (使用了25%的训练和测试分片)
扩展版本: HuggingFaceTB/smoltalk

用途

专为反应式模型的监督微调设计，处理单次交互，不包含系统提示。
每条记录包含独立的query和answer字段，无上下文关联。

适用场景

直接用途: 适用于小规模研究模型训练。
非适用场景: 数据量较小，不适用于生产模型。

引用信息

text @misc{allal2025smollm2smolgoesbig, title={SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model}, author={Loubna Ben Allal and Anton Lozhkov and Elie Bakouch and Gabriel Martín Blázquez and Guilherme Penedo and Lewis Tunstall and Andrés Marafioti and Hynek Kydlíček and Agustín Piqueres Lajarín and Vaibhav Srivastav and Joshua Lochner and Caleb Fahlgren and Xuan-Son Nguyen and Clémentine Fourrier and Ben Burtenshaw and Hugo Larcher and Haojun Zhao and Cyril Zakka and Mathieu Morlon and Colin Raffel and Leandro von Werra and Thomas Wolf}, year={2025}, eprint={2502.02737}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.02737}, }

搜集汇总

数据集介绍

构建方式

该数据集源自HuggingFaceTB/smol-smoltalk，经过精选处理，仅保留了25%的训练和测试数据。其构建过程专注于为交互式监督微调（Interaction Supervised Fine-Tuning）提供支持，尤其适用于Reactive Transformer概念模型的训练。原始数据集中的对话以JSON格式存储，包含不同角色的消息。为了适应Reactive模型的需求，该数据集剔除了系统提示（system prompts），并将连续的用户（user）和助手（assistant）消息对分别映射到查询（query）和响应（answer）字段中，确保每条交互独立处理。

特点

该数据集专为小型研究模型设计，具有鲜明的轻量化特征。其内容以英文为主，包含257,560条训练样本和13,434条验证样本，总数据量约为469MB。数据集结构简洁，每条记录包含查询、回答及来源字段，便于模型快速处理。相较于原始数据集，该版本缩短了对话长度，减少了任务特定数据（如函数调用和数学相关内容），更适配参数规模小于10亿的小型语言模型。数据来源清晰标注，遵循Apache-2.0许可协议，确保了学术研究的合规性。

使用方法

该数据集主要用于小型反应式模型的监督微调阶段。使用时需将数据加载至支持文本生成或问答任务的框架中，通过提取query-answer字段对进行单轮交互训练。由于数据已预处理为独立交互单元，可直接输入模型无需额外分割。建议配合PyTorch或TensorFlow等深度学习框架使用，并参考原始数据集的文档说明以了解详细内容组成。需注意该数据规模不适合生产级模型训练，仅推荐用于概念验证或小规模研究项目。

背景与挑战

背景概述

smol-smoltalk-mini-Interaction-SFT数据集由ReactiveAI团队基于HuggingFaceTB/smol-smoltalk数据集构建，旨在为反应式变压器（Reactive Transformer）的概念验证模型提供交互式监督微调数据。该数据集创建于2025年，主要研究人员包括Loubna Ben Allal、Anton Lozhkov等来自HuggingFace的多位专家。其核心研究问题聚焦于如何通过单次交互数据训练小型语言模型，使其在实时处理中利用短期记忆存储历史信息。作为针对参数少于10亿的小型模型优化的数据集，它在自然语言处理领域为资源受限环境下的对话生成和问答任务提供了重要基准。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题层面，反应式模型需要解决单次交互与连续对话间的语义连贯性问题，而当前数据以独立问答对形式存在，难以捕捉长程依赖；构建过程层面，原始对话数据中的系统提示被剔除可能导致上下文信息缺失，且数据规模较小（仅25万条训练样本）限制了模型的泛化能力。此外，数据来源的异构性（如剔除数学推理和函数调用等复杂任务）使得模型在特定任务上的表现受到制约。

常用场景

经典使用场景

在自然语言处理领域，smol-smoltalk-mini-Interaction-SFT数据集主要用于小型语言模型的监督微调。该数据集通过提取原始对话中的用户查询和助手回应，构建了独立的交互对，特别适用于实时处理单一交互的Reactive Transformer模型。这种设计使得模型能够在初始训练阶段专注于理解并生成单轮对话响应，为后续引入短期记忆机制奠定基础。

衍生相关工作

该数据集的衍生研究显著推动了轻量级语言模型的发展。基于其前身smol-smoltalk数据集，研究者先后开发出SmolLM2-360M-Instruct等知名模型。相关成果被应用于对话系统优化、响应质量评估等多个方向，为后续UltraFeedback等强化学习框架提供了重要基线数据。

数据集最近研究