five

SmolLM

收藏
arXiv2025-09-30 收录
下载链接:
https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是SmolLM系列,包含了不同规模的大型语言模型(分别为135M、360M、1B7参数规模),这些模型使用了多头注意力(MHA)或分组查询注意力(GQA)进行预训练。此外,该数据集是开源的,旨在减少在微调过程中数据和处理流程上的差距。其任务是针对从多头注意力(MHA)迁移到多层注意力(MLA)的建筑迁移进行微调。

This dataset belongs to the SmolLM series, which includes large language models with varying parameter scales: 135M, 360M, and 1.7B. These models are pre-trained using either multi-head attention (MHA) or grouped-query attention (GQA). Furthermore, this open-source dataset is designed to narrow the gap in data and processing workflows during fine-tuning. Its targeted task is to conduct fine-tuning for architecture migration from multi-head attention (MHA) to multi-layer attention (MLA).
提供机构:
Hugging Face
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作