smol-smoltalk

Name: smol-smoltalk
Creator: Hugging Face TB Research
Published: 2024-11-21 19:40:01
License: 暂无描述

Hugging Face2024-11-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceTB/smol-smoltalk

下载链接

链接失效反馈

官方服务：

资源简介：

Smol-SmolTalk数据集是SmolTalk数据集的一个子集，专门为参数少于1B的小模型设计。该数据集用于构建SmolLM2-360M-Instruct和SmolLM2-135M-Instruct模型。与SmolTalk相比，Smol-SmolTalk的对话更短，包含的任务特定数据更少（如不包含函数调用和较少的重写和总结示例），并且不包含任何高级数学数据集。数据集包含两个主要特征：messages和source。messages是一个列表，包含content和role两个子特征，分别表示消息内容和角色。source表示数据来源。数据集分为训练集和测试集，训练集包含460341个样本，测试集包含24229个样本。

The Smol-SmolTalk dataset is a subset of the SmolTalk dataset, specifically tailored for small-sized models with parameter counts below 1B. It is utilized to construct the SmolLM2-360M-Instruct and SmolLM2-135M-Instruct models. Compared to the original SmolTalk dataset, Smol-SmolTalk contains shorter dialogues, fewer task-specific data entries (e.g., no function call content and fewer rewriting and summarization examples), and excludes any advanced mathematics-related datasets. The dataset includes two core features: `messages` and `source`. The `messages` field is a list containing two sub-features: `content` and `role`, which respectively denote the message content and the speaker role. The `source` field indicates the origin of the data. The dataset is split into training and test subsets, with 460,341 samples in the training set and 24,229 samples in the test set.

提供机构：

Hugging Face TB Research

创建时间：

2024-11-21

原始信息汇总

Smol-SmolTalk 数据集概述

基本信息

许可证: Apache 2.0
语言: 英语
标签: 合成数据
数据集名称: Smol-SmolTalk
数据集大小: 100K < n < 1M

数据集结构

特征

messages:
- content: 字符串类型
- role: 字符串类型
source: 字符串类型

数据分割

train:
- 样本数量: 460341
- 字节数: 1811694118.6259818
test:
- 样本数量: 24229
- 字节数: 95354393.3740182

文件大小

下载大小: 970652749 字节
数据集大小: 1907048512.0 字节

配置

config_name: default
- 数据文件:
  - train: data/train-*
  - test: data/test-*

数据集描述

该数据集是 SmolTalk 数据集的一个子集，适用于参数少于 1B 的模型。
用于构建 SmolLM2-360M-Instruct 和 SmolLM2-135M-Instruct。
与 SmolTalk 相比：
- 对话更短。
- 包含的任务特定数据较少（例如，没有函数调用和较少的重写和总结示例）。
- 不包含任何高级数学数据集。

加载数据集示例

python from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/smol-smoltalk", split="train")

搜集汇总

数据集介绍

构建方式

Smol-SmolTalk数据集是基于SmolTalk数据集的一个子集，专门为参数少于10亿的小型模型设计。该数据集的构建过程包括对SmolTalk中的对话进行筛选和调整，使其更适合小型模型的训练需求。具体而言，数据集中的对话内容被缩短，且减少了特定任务的数据，如函数调用、重写和摘要示例，以适应小型模型的计算能力。此外，数据集未包含任何高级数学内容，进一步简化了数据的复杂性。

特点

Smol-SmolTalk数据集的特点在于其针对小型模型的优化设计。数据集中的对话内容简洁明了，避免了复杂任务和高级数学内容，使得小型模型能够更高效地进行训练。此外，数据集的规模适中，包含超过46万条训练样本和2.4万条测试样本，确保了模型在训练过程中能够获得足够的多样性。数据集的标签和结构清晰，每条对话都包含角色和内容信息，便于模型理解和学习。

使用方法

使用Smol-SmolTalk数据集时，可以通过Hugging Face的`datasets`库轻松加载。用户只需调用`load_dataset`函数，并指定数据集名称和所需的分割（如训练集或测试集），即可获取数据。加载后的数据集可以直接用于模型的监督微调（SFT）和偏好优化（DPO）等训练任务。通过这种方式，研究人员和开发者能够快速利用该数据集进行小型模型的训练和评估，提升模型的对话生成能力。

背景与挑战

背景概述

Smol-SmolTalk数据集是专为参数少于10亿的小型语言模型设计的对话数据集，由HuggingFace团队开发并发布。该数据集基于SmolTalk数据集进行优化，旨在为小型模型提供高效的训练数据，以提升其在对话任务中的表现。数据集的核心研究问题在于如何通过精简对话内容和减少特定任务数据，使小型模型能够在有限的计算资源下实现高效的指令跟随和对话生成。该数据集的发布为小型语言模型的研究和应用提供了重要的数据支持，推动了轻量级模型在自然语言处理领域的发展。

当前挑战

Smol-SmolTalk数据集在构建过程中面临多重挑战。首先，小型模型的计算能力有限，如何在保证数据质量的同时精简对话内容，使其适应模型的能力，是一个关键问题。其次，数据集需要平衡通用对话与特定任务数据的比例，以避免模型在特定任务上过拟合或泛化能力不足。此外，数据集的构建还需考虑如何在不引入复杂数学或高级任务数据的情况下，保持对话的多样性和实用性。这些挑战要求研究者在数据筛选和优化过程中进行精细的设计与权衡，以确保数据集能够有效支持小型模型的训练与评估。

常用场景

经典使用场景

Smol-SmolTalk数据集在自然语言处理领域中被广泛应用于小型语言模型的训练与优化。其经典使用场景包括对话系统的构建与指令微调，特别是在参数少于10亿的小型模型上，如SmolLM2-360M-Instruct和SmolLM2-135M-Instruct。通过该数据集，研究人员能够有效地进行监督微调（SFT）和直接偏好优化（DPO），从而提升模型在对话生成任务中的表现。

衍生相关工作

Smol-SmolTalk数据集衍生了一系列经典研究工作，特别是在小型语言模型的优化与应用领域。基于该数据集，研究人员开发了SmolLM2-360M-Instruct和SmolLM2-135M-Instruct等模型，这些模型在对话生成任务中表现出色。此外，该数据集还推动了监督微调（SFT）和直接偏好优化（DPO）技术的发展，为小型模型的训练提供了新的方法论，进一步丰富了自然语言处理领域的研究成果。

数据集最近研究