SmolLM2-135M-20B

Name: SmolLM2-135M-20B
Creator: EleutherAI
Published: 2025-04-12 14:27:59
License: 暂无描述

Hugging Face2025-04-12 更新2025-04-13 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/SmolLM2-135M-20B

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含文本数据的训练集，其中包括文本内容（text）和数据来源（source）两个字段，总共有20116313个示例，数据集大小为84879512870.6字节。

提供机构：

EleutherAI

创建时间：

2025-04-12

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模预训练语料库的构建是模型性能提升的关键。SmolLM2-135M-20B数据集通过整合多元化的文本来源，采用分布式数据采集与清洗策略，形成了包含2011万条样本的高质量语料库。数据构建过程中注重源数据的多样性与代表性，每条样本均标注原始来源信息，为后续的模型训练与数据分析提供了可靠的溯源基础。

特点

该数据集最显著的特征在于其规模与结构化设计，总数据量达到84.8GB，涵盖广泛的主题领域。每条数据记录包含原始文本内容和来源标识双重字段，这种双维度数据结构既保留了文本的语义完整性，又确保了数据可追溯性。数据采用单一训练集划分方式，其规模足以支撑从基础语言模型到大规模参数模型的训练需求。

使用方法

研究人员可通过HuggingFace平台直接下载完整的压缩数据集，解压后获得按分片存储的训练数据。使用时应充分注意数据源的多样性特征，建议结合来源字段进行数据采样策略的设计。对于分布式训练场景，可利用原生的数据分片机制实现高效的并行加载，最大程度发挥大规模语料库的训练效率优势。

背景与挑战

背景概述

SmolLM2-135M-20B数据集是近年来自然语言处理领域涌现的大规模文本语料库，由前沿研究团队构建以支持语言模型的预训练与微调。该数据集收录了超过2000万条文本样本，覆盖多源异构数据，旨在为参数量从1.35亿到200亿不等的轻量级至中等规模语言模型提供训练基础。其设计理念反映了学术界对高效能小模型的需求趋势，通过高质量数据压缩提升模型性能边界，对推动边缘计算场景下的语言模型部署具有显著意义。

当前挑战

该数据集面临的核心挑战体现在模型性能与数据效率的平衡上：一方面需解决小模型在有限参数量下捕捉复杂语言模式的固有难题，这要求数据具备更高的信息密度与多样性；另一方面在构建过程中，多源数据的清洗与标准化消耗大量计算资源，文本质量评估体系的设计也需要克服主观性与领域偏差。此外，如何在不引入隐私风险的前提下整合开放网络文本，同样是数据采集阶段的技术难点。

常用场景

经典使用场景

在自然语言处理领域，SmolLM2-135M-20B数据集凭借其庞大的文本规模和多样化的数据来源，成为训练大规模语言模型的理想选择。该数据集广泛应用于语言模型的预训练阶段，为模型提供了丰富的语言结构和语义信息，使其能够更好地理解和生成自然语言。研究人员通过利用该数据集，能够显著提升模型在文本生成、机器翻译等任务上的表现。

衍生相关工作

围绕SmolLM2-135M-20B数据集，学术界已衍生出多项重要研究成果。其中包括基于该数据集优化的轻量级语言模型架构，以及针对特定领域进行微调的专用模型。这些工作不仅拓展了原始数据集的应用范围，还为后续研究提供了宝贵的经验和方法论参考。

数据集最近研究