smoltalk

Name: smoltalk
Creator: Hugging Face TB Research
Published: 2024-11-21 22:01:22
License: 暂无描述

Hugging Face2024-11-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceTB/smoltalk

下载链接

链接失效反馈

官方服务：

资源简介：

SmolTalk 是一个用于大型语言模型（LLM）监督微调（SFT）的合成数据集，包含1百万个样本。该数据集用于构建 SmolLM2-Instruct 系列模型，涵盖多种任务，包括文本编辑、重写、摘要和推理。通过一系列数据消融实验，结合公共数据集，增强了模型在数学、编码、系统提示和长上下文理解等方面的能力。所有新数据集均使用 distilabel 工具生成，并可在 GitHub 上找到生成代码。

SmolTalk is a synthetic dataset designed for supervised fine-tuning (SFT) of large language models (LLMs), containing 1 million samples. It is utilized to develop the SmolLM2-Instruct family of models, covering a wide spectrum of tasks including text editing, rewriting, summarization, and reasoning. Through a series of data ablation experiments and integration with public datasets, it bolsters the model's competencies in mathematical reasoning, coding, system prompting, and long-context understanding. All newly generated datasets are created using the distilabel toolkit, with their generation code publicly available on GitHub.

提供机构：

Hugging Face TB Research

创建时间：

2024-11-17

原始信息汇总

SmolTalk 数据集概述

基本信息

许可证: Apache 2.0
语言: 英语
标签: 合成数据
数据集大小: 1M<n<10M

数据集配置

配置名称: all
- 数据文件:
  - 训练集: data/all/train-*
  - 测试集: data/all/test-*
配置名称: smol-magpie-ultra
- 数据文件:
  - 训练集: data/smol-magpie-ultra/train-*
  - 测试集: data/smol-magpie-ultra/test-*
配置名称: smol-constraints
- 数据文件:
  - 训练集: data/smol-constraints/train-*
  - 测试集: data/smol-constraints/test-*
配置名称: smol-rewrite
- 数据文件:
  - 训练集: data/smol-rewrite/train-*
  - 测试集: data/smol-rewrite/test-*
配置名称: smol-summarize
- 数据文件:
  - 训练集: data/smol-summarize/train-*
  - 测试集: data/smol-summarize/test-*
配置名称: apigen-80k
- 数据文件:
  - 训练集: data/apigen-80k/train-*
  - 测试集: data/apigen-80k/test-*
配置名称: everyday-conversations
- 数据文件:
  - 训练集: data/everyday-conversations/train-*
  - 测试集: data/everyday-conversations/test-*
配置名称: explore-instruct-rewriting
- 数据文件:
  - 训练集: data/explore-instruct-rewriting/train-*
  - 测试集: data/explore-instruct-rewriting/test-*
配置名称: longalign
- 数据文件:
  - 训练集: data/longalign/train-*
  - 测试集: data/longalign/test-*
配置名称: metamathqa-50k
- 数据文件:
  - 训练集: data/metamathqa-50k/train-*
  - 测试集: data/metamathqa-50k/test-*
配置名称: numina-cot-100k
- 数据文件:
  - 训练集: data/numina-cot-100k/train-*
  - 测试集: data/numina-cot-100k/test-*
配置名称: openhermes-100k
- 数据文件:
  - 训练集: data/openhermes-100k/train-*
  - 测试集: data/openhermes-100k/test-*
配置名称: self-oss-instruct
- 数据文件:
  - 训练集: data/self-oss-instruct/train-*
  - 测试集: data/self-oss-instruct/test-*
配置名称: systemchats-30k
- 数据文件:
  - 训练集: data/systemchats-30k/train-*
  - 测试集: data/systemchats-30k/test-*

数据集描述

SmolTalk 是一个用于监督微调（SFT）的大型语言模型（LLM）的合成数据集，包含100万样本。该数据集用于构建 SmolLM2-Instruct 系列模型。

数据集组成

新数据集

Smol-Magpie-Ultra: 包含40万样本，使用Magpie管道生成，经过严格筛选和过滤。
Smol-constraints: 包含3.6万样本，训练模型遵循特定约束。
Smol-rewrite: 包含5万样本，专注于文本重写任务。
Smol-summarize: 包含10万样本，专注于电子邮件和新闻摘要。

现有公共数据集

OpenHermes2.5: 包含10万样本，用于提升MMLU、WinoGrande和BBH等基准。
MetaMathQA: 包含5万样本，用于提升数学和推理能力。
NuminaMath-CoT: 用于提升数学能力，特别是解决难题。
Self-Oss-Starcoder2-Instruct: 用于提升编码能力。
SystemChats2.0: 包含3万样本，用于支持多种系统提示格式。
LongAlign: 包含1万样本，用于提升长上下文理解能力。
Everyday-conversations: 包含2千样本，用于日常对话。
APIGen-Function-Calling: 包含8万样本，用于API函数调用。
Explore-Instruct-Rewriting: 包含3万样本，用于指令重写。

评估

SmolTalk 数据集在微调 SmolLM2 模型时表现优异，特别是在 IFEval、BBH、GS8Mk 和 MATH 等基准上。

许可证

Apache 2.0

引用

bash @misc{allal2024SmolLM2, title={SmolLM2 - with great data, comes great performance}, author={Loubna Ben Allal and Anton Lozhkov and Elie Bakouch and Gabriel Martín Blázquez and Lewis Tunstall and Agustín Piqueres and Andres Marafioti and Cyril Zakka and Leandro von Werra and Thomas Wolf}, year={2024}, }

搜集汇总

数据集介绍

构建方式

SmolTalk数据集的构建旨在弥补公开监督微调数据集在指令跟随任务中的不足。通过使用distilabel工具，生成了包括文本编辑、重写、摘要和推理等多样化任务的新合成数据集。在1.7B规模的模型上进行了数据消融实验，结合了公开数据集以增强数学、编码、系统提示和长上下文理解等特定能力。所有新数据集均通过distilabel生成，生成代码可在GitHub上获取。

使用方法

SmolTalk数据集的使用方法简便高效。用户可以通过Hugging Face的datasets库加载数据集，支持加载整个数据集或特定子集。例如，使用`load_dataset`函数加载`all`配置的训练集，或加载`smol-magpie-ultra`等特定子集。数据集适用于监督微调任务，用户可根据需求选择不同子集进行模型训练。生成代码和训练脚本可在GitHub上获取，便于用户复现和扩展实验。

背景与挑战

背景概述

SmolTalk数据集由HuggingFace团队于2024年开发，旨在为大语言模型（LLMs）的监督微调（SFT）提供高质量的合成数据。该数据集的核心研究问题在于解决现有公开SFT数据集在指令跟随任务上的性能不足问题。通过生成多样化的任务数据，如文本编辑、重写、摘要和推理，SmolTalk显著提升了模型在指令跟随任务上的表现。该数据集在构建SmolLM2-Instruct系列模型时发挥了关键作用，并通过数据消融实验进一步优化了模型的数学、编码、系统提示和长上下文理解能力。SmolTalk的生成依赖于distilabel工具，其代码和生成流程已在GitHub上公开。

当前挑战

SmolTalk数据集在构建过程中面临多重挑战。首先，现有公开SFT数据集在指令跟随任务上的表现与专有数据集存在显著差距，这促使研究人员开发新的合成数据以弥补这一不足。其次，数据生成过程中需要确保多样性和高质量，涵盖文本编辑、重写、摘要和推理等多种任务，同时避免与现有评估数据集（如IFEval）的重叠。此外，数据消融实验的复杂性要求研究人员在1.7B规模上反复验证，以确定最佳的数据组合。最后，数据集的生成依赖于distilabel工具，其流程的优化和调试也是构建过程中的重要挑战。

常用场景

经典使用场景

SmolTalk数据集在自然语言处理领域中被广泛用于监督微调（SFT）大型语言模型（LLMs）。其核心应用场景包括文本编辑、重写、摘要生成以及推理任务。通过使用该数据集，研究人员能够显著提升模型在指令遵循、数学推理、编码能力以及长上下文理解等方面的表现。特别是在构建SmolLM2-Instruct系列模型时，SmolTalk数据集被证明能够有效弥补公开SFT数据集在性能上的不足。

解决学术问题

SmolTalk数据集解决了当前公开SFT数据集在指令遵循和多样化任务处理上的性能瓶颈问题。通过引入新的合成数据集，如Smol-Magpie-Ultra和Smol-constraints，该数据集显著提升了模型在关键基准测试中的表现，如IFEval和MT-Bench。此外，通过结合公共数据集，SmolTalk进一步增强了模型在数学、编码、系统提示和长上下文理解等特定领域的能力，为学术研究提供了更为丰富和可靠的训练资源。

实际应用

在实际应用中，SmolTalk数据集被广泛用于开发智能助手、自动文本生成系统以及多轮对话系统。其强大的指令遵循能力和多样化任务处理能力使得基于该数据集训练的模型能够更好地适应实际场景中的复杂需求。例如，在客户服务、新闻摘要生成以及代码自动生成等领域，SmolTalk数据集训练的模型表现出色，显著提升了系统的智能化水平和用户体验。

数据集最近研究