EleutherAI/SmolLM2-135M-10B

Name: EleutherAI/SmolLM2-135M-10B
Creator: EleutherAI
Published: 2025-04-15 01:49:29
License: 暂无描述

Hugging Face2025-04-15 更新2025-04-08 收录

下载链接：

https://hf-mirror.com/datasets/EleutherAI/SmolLM2-135M-10B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本和文本来源信息，共有训练集一个部分，包含超过10亿条文本数据，总大小约为42GB。数据集适用于需要大量文本数据的自然语言处理任务。

The dataset includes text and source information, with a total of over 1 billion text entries in the training set, totaling approximately 42GB in size. The dataset is suitable for natural language processing tasks that require a large amount of text data.

提供机构：

EleutherAI

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模预训练语料库的构建是推动模型性能提升的关键。该数据集源自SmolLM2语料库，其构建过程遵循了精心设计的抽样策略。具体而言，研究者从SmolLM2-135M的预训练数据中抽取样本，该原始数据混合了总计2T词元，涵盖四个完整的高质量数据集，并按照6:4的比例选取了DCLM-Edu与FineWeb-Edu的部分内容。这种构建方式旨在确保数据样本既具有代表性，又能支持高效的模型训练流程。

使用方法

该数据集主要服务于稀疏化模型的快速下载与训练需求。用户可通过HuggingFace平台直接获取数据文件，其中训练分割包含了超过一千万条文本示例。在实际应用中，研究者可利用该数据集进行语言模型的预训练或微调实验，尤其适用于探索模型在数学推理与教育内容理解方面的能力。数据集的结构化特征与清晰的来源标注，为后续的数据加载、处理与分析流程提供了便利，支持高效的机器学习工作流。

背景与挑战

背景概述

在人工智能领域，大规模语言模型的预训练数据质量与多样性直接决定了模型的认知广度与推理深度。EleutherAI团队于2025年发布的SmolLM2-135M-10B数据集，作为SmolLM2语料库的精选子集，旨在为高效模型训练提供高质量文本资源。该数据集整合了FineMath、Stack-Edu、InfiMM-WebMath、Cosmopedia V2等多个权威教育及数学推理数据集，并通过对DCLM-Edu与FineWeb-Edu的均衡采样，构建了一个涵盖科学、教育及技术领域的多源文本混合体。其核心研究问题聚焦于如何通过优化数据配比与内容筛选，提升中小规模语言模型在复杂推理任务中的泛化能力，为资源受限环境下的模型稀疏化训练提供了关键数据支撑。

当前挑战

该数据集致力于解决教育领域文本理解与数学逻辑推理的融合挑战，其核心难点在于如何平衡不同数据源的知识密度与语言风格，以构建兼具广度与深度的训练样本。在构建过程中，研究人员面临多重挑战：首先，需从海量原始语料中精准提取高质量教育文本，同时避免噪声数据污染；其次，DCLM-Edu与FineWeb-Edu两大核心数据源的采样比例优化需兼顾学科覆盖的全面性与训练效率的平衡；此外，数据集的轻量化设计需在保留关键语义信息的前提下压缩规模，这对数据清洗、去重与结构化整合提出了极高要求。这些挑战共同指向了高质量训练数据工程中规模、质量与多样性之间的微妙权衡。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语料库的构建与优化是推动模型性能提升的核心驱动力。EleutherAI/SmolLM2-135M-10B数据集作为SmolLM2 Corpus的精选样本，其经典使用场景聚焦于语言模型的快速预训练与稀疏化实验。该数据集整合了FineMath、Stack-Edu、InfiMM-WebMath等高质量教育及数学相关文本，为研究人员提供了一个高效、轻量化的基准平台，便于在有限计算资源下验证模型架构创新与训练策略的有效性，尤其适用于探索中小规模参数模型在知识密集型任务上的潜力。

解决学术问题

该数据集旨在应对当前预训练数据集中普遍存在的质量不均、领域覆盖狭窄以及计算成本高昂等学术挑战。通过精心筛选并混合多个高质量教育数据集，如DCLM-Edu与FineWeb-Edu，并以特定比例采样，它确保了语料在数学推理、代码生成及科学知识等专业领域的深度与广度。这一设计显著缓解了数据噪声对模型泛化能力的干扰，为研究社区提供了标准化、可复现的数据基准，助力于深入探究数据组成、训练效率与模型性能之间的复杂关联，推动了数据为中心的人工智能方法论发展。

实际应用

在实际应用层面，该数据集支撑了轻量级语言模型的开发与部署，特别适用于资源受限环境下的智能教育辅助与专业工具构建。基于其富含数学与教育内容的特性，衍生模型可被集成至在线学习平台，提供个性化的解题指导与知识问答服务；同时，在代码生成与科学文献处理等垂直领域，它能赋能自动化工具，提升研究效率与准确性。此外，数据集的稀疏化导向为边缘计算设备上的高效推理提供了可能，促进了AI技术在更广泛场景中的落地与普及。

数据集最近研究