nanoLM

Name: nanoLM
Creator: 北京人工智能研究院
Published: 2024-04-06 13:50:39
License: 暂无描述

arXiv2024-04-06 更新2024-07-31 收录

下载链接：

https://github.com/cofe-ai/Mu-scaling

下载链接

链接失效反馈

官方服务：

资源简介：

nanoLM是一个为大型语言模型(LLM)研究设计的经济高效基准数据集，由北京人工智能研究院创建。该数据集包含从100亿到2万亿令牌的四个不同规模的训练数据，涵盖了WebText、专业知识、世界知识、代码和学术等多个领域，旨在提高模型的泛化能力。nanoLM通过精确预测损失，使得研究人员无需实际训练大型模型即可进行有意义的模型架构和算法比较，从而节省资源并推动学术界与工业界之间的合作。

nanoLM is a cost-effective benchmark dataset designed for large language model (LLM) research, developed by the Beijing Academy of Artificial Intelligence. This dataset includes four training corpora of varying scales ranging from 10 billion to 2 trillion tokens, covering diverse domains such as WebText, professional knowledge, world knowledge, code, and academic content, with the objective of enhancing the generalization performance of models. By leveraging accurate loss prediction, nanoLM enables researchers to conduct meaningful comparisons of model architectures and algorithms without actually training large-scale models, thus saving computational resources and fostering collaboration between academia and industry.

提供机构：

北京人工智能研究院

创建时间：

2023-04-14

原始信息汇总

Mu-scaling: Loss Prediction via Maximal Update Parametrization

数据集概述

主题: 通过最大更新参数化（Mup）进行损失预测。
论文链接: Mu-scaling paper
实现基础: 基于Huggingface和MuTransformers，进行了稳定性改进和支持Deepspeed的修改。

快速开始

1. 环境设置

推荐工具: conda
环境配置命令: bash conda create -n mu_scaling python=3.8 conda activate mu_scaling pip install -r requirements.txt
中国用户加速安装: bash pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 数据准备

数据预处理: 遵循Huggingface的因果语言模型数据预处理指南。
示例数据: 提供了一个处理后的数据示例在res/final_data/test。

3. 使用Mup训练GPT-2

训练命令: bash sh run_grid_search_pair_wise_mup.sh

4. 绘制损失景观

绘制命令: python python visualize_lr_landscape.py

5. 拟合缩放定律

记录训练损失: 在相同数据和步骤上记录训练损失。
拟合命令: python python fit_scale_loss_prediction.py

6. 评估

评估命令: bash sh run_eval_ppl_loss_pred.sh

参考文献

作者: Yiqun Yao, Yequan Wang
标题: Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales
期刊: CoRR
卷: abs/2304.06875
年份: 2023

搜集汇总

数据集介绍

构建方式

在大型语言模型研究领域，面对模型规模扩大带来的高昂计算成本，nanoLM数据集的构建旨在通过创新的μScaling方法实现跨尺度损失预测。该数据集基于Transformer架构，兼容解码器、编码器及编码器-解码器结构，并集成全分片数据并行技术以优化内存使用。其预训练数据来源于公开网络文本、专业书籍、百科、代码库及学术论文等多领域资源，经过精心筛选与分类，形成了包含1000亿至2万亿标记的四个规模版本，确保了数据的多样性与代表性。

特点

nanoLM数据集的核心特点在于其提出的μScaling方法，该方法结合最大更新参数化与修正的缩放定律，能够仅通过训练小型代理模型准确预测大型模型的预训练损失。这一机制使得研究人员无需实际训练大规模模型，即可在超参数空间中的公共损失盆地内，以幂律函数形式预测不同模型设计的性能。实验表明，该方法在预测高达520亿参数模型的损失时，仅需约14%的一次性预训练成本，显著降低了研究门槛，并提升了结论的可迁移性与计算效率。

使用方法

使用nanoLM数据集时，研究人员首先需基于小型基础模型进行μ可转移超参数的网格搜索，确定最优配置。随后，通过μ参数化函数将这些超参数零样本迁移至一系列不同宽度的代理模型，并记录其训练损失。利用这些损失数据拟合幂律缩放定律，即可直接预测目标大规模模型在特定宽度下的损失，从而实现对不同模型架构、算法及超参数的比较与评估。该流程支持在有限计算资源下进行可靠的大规模模型研究，并可通过可选的实际训练步骤验证预测结果。

背景与挑战

背景概述

在大型语言模型（LLM）研究领域，随着模型规模的急剧扩张，验证研究假设的成本日益高昂，因为基于小规模模型的结论往往无法直接推广至大规模模型。为应对这一挑战，北京人工智能研究院等机构的研究团队于2024年提出了nanoLM数据集，旨在通过创新的损失预测方法µScaling，构建一个经济高效的大语言模型预训练基准。该数据集的核心研究问题在于如何在不直接训练大规模模型的情况下，准确预测其预训练损失，从而为资源有限的研究者提供可靠的模型比较与评估平台。nanoLM的推出不仅降低了LLM研究的门槛，还促进了学术界与工业界在模型设计与优化方面的深度协作，对推动语言模型的可扩展性研究具有重要影响。

当前挑战

nanoLM数据集致力于解决大语言模型预训练中的损失预测问题，其核心挑战在于如何确保基于小规模代理模型预测的损失能够准确反映大规模模型的性能。具体而言，现有缩放定律通常需要在大规模模型上进行超参数搜索，这限制了其预测能力；而µScaling方法需验证在超参数空间的公共损失盆地内，损失随模型规模变化的幂律关系是否稳定成立。在构建过程中，研究团队面临数据多样性与规模平衡的挑战，需从公开来源中筛选涵盖网页文本、专业书籍、世界知识、代码、学术论文及问答社区等多领域数据，并整合为100B至2T令牌的预训练轨迹。此外，数据集还需兼容GPT、Llama、BERT和T5等多种Transformer架构，并支持数据并行策略，以确保基准的广泛适用性与计算效率。

常用场景

经典使用场景

在大语言模型预训练领域，nanoLM数据集作为一项经济高效的基准测试工具，其经典使用场景在于通过µScaling方法实现跨尺度损失预测。研究者仅需训练一系列小型代理模型，便能精准预估高达520亿参数大型模型的预训练损失，从而在资源受限条件下，对不同Transformer架构（如GPT、Llama、BERT、T5）进行系统化比较与评估。

实际应用

在实际应用中，nanoLM为学术界与工业界提供了低成本的LLM预训练研究平台。其整合的多样化预训练数据（涵盖网页文本、专业书籍、学术论文、代码及问答数据），支持从1000亿到2万亿令牌的多尺度训练轨道，使研究者能在有限GPU资源下，通过分布式训练策略（如FSDP）高效探索模型性能边界，加速大语言模型的创新与部署。

衍生相关工作

nanoLM衍生的经典工作主要围绕µScaling理论框架的扩展与应用。例如，基于µP（最大更新参数化）与缩放定律的结合，研究者开发出更精确的损失预测模型，推动了跨架构超参数迁移研究。此外，该数据集启发了对嵌入层参数在缩放定律中作用的重新审视，以及在小规模代理模型上通过平均损失拟合提升预测稳定性的方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集