colinear_scaling_models

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/TPPIsCriticalFor/colinear_scaling_models

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于比较共线性和非共线性实验设计的扩展法则实验的检查点仓库，相关论文《Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation》正在NeurIPS 2026评审中。数据集包含多种配置和特征，涉及模型训练的各种参数，如模型大小、层数、头数、学习率和损失指标。数据集目录结构清晰，包含不同的数据集（如wikipedia、pes2o、cosmopedia等）和设计类型（共线性和非共线性）。此外，还包含用于评估扩展法则拟合精度的保留集。文件名遵循特定的命名约定，详细记录了模型参数和训练令牌数等精确信息。

创建时间：

2026-05-01

原始信息汇总

数据集概述

该数据集是用于 LLM 缩放定律（Scaling Law）实验的检查点仓库，支撑论文 Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation（投稿于 NeurIPS 2026）。

核心内容

实验对比：共线（Collinear, CO）与非共线（Non-Collinear, NC）两种实验设计。
框架：Llama 系列模型。

数据特征

每条记录包含 28 个字段，涵盖：

模型架构：model_size, d_model, n_layers, n_heads, d_ff, vocab_size, max_seq_len
训练配置：learning_rate, epochs, batch_size, weight_decay, seed, deterministic 等
训练结果：total_tokens, total_steps, cumulative_time_seconds, val_epochs_count, mean_val_loss, best_val_loss, final_train_loss, std_train_loss, mean_train_loss, global_batch_tokens, final_val_loss
元信息：checkpoint_prefix, timestamp, status

实验设计

设计类型	描述	变量关系
共线 (CO)	沿 (N, D) 空间中的一条线训练，固定模型大小 N，改变 TPP（每参数 token 数）	D = TPP × N
非共线 (NC)	在 (N, D) 空间网格上训练，独立变化 N 和 D	N × D 网格

数据集与规模

训练数据集：wikipedia, pes2o, cosmopedia, redpajama, c4（含 _bf16 和 _bigtpp 变体）
模型参数规模：14 种标准大小，约 5M 至 76.5M 参数

保留集 (Holdout Sets)

部分检查点文件名含 HOLDOUT 标记，这些数据未用于拟合缩放定律，用于评估外推/内插精度：

COLINEAR_HOLDOUT_*：共线保留（保留的 TPP 值）
*_HOLDOUT_*（不含 COLINEAR）：非共线保留（保留的 (N, D) 对）

文件命名规则

{PREFIX}{DESIGN}N{approx_size}[TPP{val}]D{tokens}_{dataset}_m{exact_N}_token{exact_D}lr{lr}..._completedAt{timestamp}.pt

其中 m{N} 和 token{D} 字段包含确切的参数量和 token 数。

许可与访问

许可证：GPL v2.0
代码仓库：匿名代码仓库（可复现所有表格）：https://anonymous.4open.science/r/Tokens-per-Parameter_Coverage_Is_Critical_for_Robust_LLM_Scaling_Law_Extrapolation-CC76

搜集汇总

数据集介绍

构建方式

该数据集源自一项探究大语言模型缩放律外推鲁棒性的前沿研究，收录了在共线与非共线两种实验设计下大批量预训练语言模型的检查点记录。构建过程基于五种公开语料库（如Wikipedia、C4、RedPajama等），按参数规模和训练数据量配对生成模型，系统性地沿参数-数据平面进行覆盖采样。共线设计固定模型架构尺度，沿每参数词元数变化方向进行密集训练；非共线设计则构建网格状结构，同时独立调控模型规模与训练数据总量，形成多维度探索。为验证缩放律拟合的外推能力，数据集内还专门设置了保留集，用于评估模型在未见配置下的预测表现。

特点

数据集显著之处在于对缩放律研究设计差异的精细化表征。每个实验点均完整记录了模型配置、训练超参数、损失变化轨迹及时间消耗等核心元数据，支持对共线与非共线方法进行对比分析。参数覆盖从约五百万到七千六百万规模的14种标准架构，每参数词元覆盖范围丰富，兼顾了缩放律插值与外推评估。保留集的存在进一步强化了数据集对模型预测泛化性能的验证能力，适合用于检验现有缩放律公式在不同数据-参数组合下的适用性及偏差来源。

使用方法

用户可直接加载JSON格式的结构化记录，每条包含checkpoint路径、模型规模、训练配置及多类损失度量。适合用于拟合或比较缩放律函数，或对共线与非共线设计下模型的损失分布与缩放趋势进行统计建模。数据按数据集来源与设计类型分层组织，便于按条件筛选子集。结合配套匿名代码库，可复现论文中全部表格与实验，支持进行交叉验证、外推精度评估以及在不同语料领域间的一致性分析。

背景与挑战

背景概述

随着大规模语言模型（LLMs）的蓬勃发展，缩放定律（Scaling Laws）已成为指导模型与数据资源配置的核心理论工具。然而，现有缩放定律的外推鲁棒性严重依赖于实验设计，这一问题在NeurIPS 2026会议论文《Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation》中得到了系统关注。该研究由匿名团队开展，旨在探索不同实验设计对缩放定律预测精度的影响。为此，他们构建了colinear_scaling_models数据集，该数据集由一系列LLaMA架构的检查点构成，系统记录从约5M至76.5M参数的14种规模模型在wikipedia、pes2o、cosmopedia、redpajama及c4等五个语料上的训练轨迹。数据集的核心贡献在于提出了共线（Collinear）与非共线（Non-Collinear）两种实验设计范式，前者固定模型规模并沿（N, D）空间的一条直线变化，后者则在网格上独立变化参数量和数据量，从而为评估缩放定律的外推与插值能力提供了标准化基准。该数据集的面世重塑了缩放定律研究的实验范式，推动了关于数据与参数覆盖完备性的深刻讨论。

当前挑战

colinear_scaling_models数据集的研究核心在于应对缩放定律外推鲁棒性不足的领域挑战。传统缩放定律大多假设参数量与数据量满足特定比例关系，但真实场景中资源配置常偏离这一假设，导致外推预测偏差严重。该数据集通过共线与非共线设计的对比，揭示了若（N, D）空间覆盖不充分，缩放定律将难以准确指导更大规模模型或不同数据配比下的性能预估。构建过程中的挑战亦不容忽视：首先，需在两个设计维度上同步精准控制模型规模、数据量、学习率等众多超参数，确保仅布局设计本身为变量；其次，为生成高保真度的检查点数据，需在多个语料上同时进行大量重复训练并记录完整训练轨迹，对计算资源与存储管理提出了严峻考验；最后，设计合理的留出集以公正评估不同设计的外推能力，也要求研究者精心平衡训练分布与测试分布之间的差异。

常用场景

经典使用场景

在大型语言模型（LLM）的预训练领域，scaling law的准确外推一直是学术研究与工业实践的核心难题。colinear_scaling_models数据集专为探究不同实验设计下scaling law的鲁棒性而构建，其最经典的用途在于评估和比较共线性（CO）与非共线性（NC）两种实验范式下scaling law的外推与插值能力。研究者可以借助该数据集中的海量检查点，包括多种模型参数量（约5M至76.5M）、不同数据集（如wikipedia、pes2o、cosmopedia等）以及精心设计的留出集，系统性地分析模型损失、参数量与训练数据量三者之间的内在关系，进而验证基于“每参数令牌覆盖率”这一关键指标所提出的新型scaling law假设。

衍生相关工作

该数据集催生了一系列围绕scaling law鲁棒性与实验设计优化的经典工作。研究者基于其提供的非共线性网格数据，发展了更精细的scaling law拟合算法，如考虑令牌覆盖率的惩罚项修正模型。同时，该数据集启发了对“scaling law失效区域”的系统性探索，推动了对高令牌-参数比下损失饱和现象的理论解释。此外，部分学者将其作为基准，对比不同框架（如Chinchilla法则）在共线与非共线设计下的预测偏差，进而提出了更加数据高效的scaling策略。这些衍生工作共同拓展了LLM科学训练的边界，使得scaling law从经验规律升华为可验证的理论工具。

数据集最近研究