sldbench

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/pkuHaowei/sldbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子数据集，每个子数据集针对不同的机器学习模型参数调整和性能评估。具体包括：数据约束缩放法则、域混合缩放法则、学习率和批大小缩放法则、修改后的学习率和批大小缩放法则、MoE缩放法则、并行缩放法则、SFT缩放法则和词汇缩放法则。每个子数据集都包含训练和测试数据，以及相关的模型参数和性能指标。

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称: sldbench
来源地址: https://huggingface.co/datasets/pkuHaowei/sldbench
配置数量: 8个独立配置

配置详情

1. data_constrained_scaling_law

特征: group (string), unique_tokens (float64), params (float64), tokens (float64), loss (float64)
数据分割:
- 训练集: 161个样本，7084字节
- 测试集: 21个样本，924字节
总大小: 8008字节
下载大小: 7325字节

2. domain_mixture_scaling_law

特征: group (string), proportion_domain_1-5 (float64), loss_domain_1-5 (float64)
数据分割:
- 训练集: 80个样本，7020字节
- 测试集: 24个样本，2106字节
总大小: 9126字节
下载大小: 15342字节

3. lr_bsz_scaling_law

特征: group (string), lr (float64), bsz (float64), data_size (float64), non_embedding_param_size (float64), lm_loss (float64)
数据分割:
- 训练集: 3593个样本，186836字节
- 测试集: 117个样本，6084字节
总大小: 192920字节
下载大小: 44596字节

4. lr_bsz_scaling_law_modified

特征: group (string), lr (float64), bsz (float64), data_size (float64), non_embedding_param_size (float64), lm_loss (float64)
数据分割:
- 训练集: 3593个样本，186836字节
- 测试集: 117个样本，6084字节
总大小: 192920字节
下载大小: 44596字节

5. moe_scaling_law

特征: group (string), num_experts (float64), dense_parameter_count (float64), loss_validation (float64)
数据分割:
- 训练集: 193个样本，6948字节
- 测试集: 28个样本，1008字节
总大小: 7956字节
下载大小: 6463字节

6. parallel_scaling_law

特征: num_params (int64), parallel_size (int64), group (string), loss (float64)
数据分割:
- 训练集: 36个样本，1170字节
- 测试集: 12个样本，390字节
总大小: 1560字节
下载大小: 4551字节

7. sft_scaling_law

特征: group (string), sft_data_size (int64), sft_loss (float64)
数据分割:
- 训练集: 504个样本，25896字节
- 测试集: 42个样本，2158字节
总大小: 28054字节
下载大小: 9274字节

8. vocab_scaling_law

特征: group (string), non_vocab_parameters (float64), vocab_size (float64), num_characters (float64), unigram_normalized_loss (float64)
数据分割:
- 训练集: 1080个样本，47520字节
- 测试集: 120个样本，5280字节
总大小: 52800字节
下载大小: 23841字节

搜集汇总

数据集介绍

构建方式

在深度学习扩展性研究领域，sldbench数据集通过系统化实验设计构建，涵盖多个关键配置模块。每个模块针对特定扩展维度，如数据约束、领域混合、学习率与批大小等，采用控制变量法收集模型训练过程中的损失与参数指标。数据源自大规模语言模型训练实验，确保数值的实证基础与可复现性。

特点

该数据集具备多维度扩展性分析能力，包含八个独立配置模块，覆盖参数规模、数据量、词汇表设计等核心因素。特征字段设计严谨，如损失值、参数数量、令牌数量等均为浮点型数值，支持定量分析。数据集规模适中，训练集与测试集划分清晰，便于模型评估与泛化能力验证。

使用方法

研究者可通过HuggingFace平台直接加载特定配置模块，如data_constrained_scaling_law或moe_scaling_law，调用标准数据加载接口获取结构化数据。适用于扩展律实证研究、模型性能预测分析以及训练策略优化。数据已预分为训练与测试集，支持跨模块对比实验与元分析研究。

背景与挑战

背景概述

在深度学习模型规模扩展的探索中，sldbench数据集应运而生，专注于规模定律的实证研究。该数据集由前沿研究机构构建，旨在系统性地揭示模型参数、数据规模、学习率等关键因素与模型性能间的量化关系。其多配置设计覆盖了数据约束、领域混合、专家网络等多个维度，为大规模语言模型的优化与部署提供了坚实的实验基础，显著推动了计算语言学与人工智能领域的可解释性研究。

当前挑战

规模定律研究面临模型性能预测的复杂性挑战，需精确量化参数规模、数据量与损失函数间的非线性关系。构建过程中需协调多变量实验设计，确保数据一致性与可比性；同时，处理高维参数空间中的稀疏采样问题，以及在不同计算约束下保持实验的可重复性，均为数据集构建的核心难点。

常用场景

经典使用场景

在深度学习扩展定律研究中，sldbench数据集被广泛应用于构建参数规模、数据量和计算资源与模型性能之间的定量关系模型。该数据集通过多维度实验数据，支持研究者探索不同约束条件下的损失函数变化规律，为神经网络扩展行为提供实证基础。其结构化设计使得能够系统性地分析模型规模扩展时的性能边界，成为扩展定律验证的核心基准工具。

衍生相关工作

基于sldbench数据集，研究者开发了多项扩展定律建模的重要工作。其中包括改进的学习率-批量大小扩展定律、混合专家模型扩展预测框架，以及词汇表规模优化算法等。这些衍生研究深化了对神经网络扩展行为的理解，推动了如Chinchilla缩放定律等经典理论的完善，为后续大规模模型训练提供了理论基础和方法支撑。

数据集最近研究