sldbench
收藏Hugging Face2025-09-08 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/pkuHaowei/sldbench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子数据集,每个子数据集针对不同的机器学习模型参数调整和性能评估。具体包括:数据约束缩放法则、域混合缩放法则、学习率和批大小缩放法则、修改后的学习率和批大小缩放法则、MoE缩放法则、并行缩放法则、SFT缩放法则和词汇缩放法则。每个子数据集都包含训练和测试数据,以及相关的模型参数和性能指标。
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: sldbench
- 来源地址: https://huggingface.co/datasets/pkuHaowei/sldbench
- 配置数量: 8个独立配置
配置详情
1. data_constrained_scaling_law
- 特征: group (string), unique_tokens (float64), params (float64), tokens (float64), loss (float64)
- 数据分割:
- 训练集: 161个样本,7084字节
- 测试集: 21个样本,924字节
- 总大小: 8008字节
- 下载大小: 7325字节
2. domain_mixture_scaling_law
- 特征: group (string), proportion_domain_1-5 (float64), loss_domain_1-5 (float64)
- 数据分割:
- 训练集: 80个样本,7020字节
- 测试集: 24个样本,2106字节
- 总大小: 9126字节
- 下载大小: 15342字节
3. lr_bsz_scaling_law
- 特征: group (string), lr (float64), bsz (float64), data_size (float64), non_embedding_param_size (float64), lm_loss (float64)
- 数据分割:
- 训练集: 3593个样本,186836字节
- 测试集: 117个样本,6084字节
- 总大小: 192920字节
- 下载大小: 44596字节
4. lr_bsz_scaling_law_modified
- 特征: group (string), lr (float64), bsz (float64), data_size (float64), non_embedding_param_size (float64), lm_loss (float64)
- 数据分割:
- 训练集: 3593个样本,186836字节
- 测试集: 117个样本,6084字节
- 总大小: 192920字节
- 下载大小: 44596字节
5. moe_scaling_law
- 特征: group (string), num_experts (float64), dense_parameter_count (float64), loss_validation (float64)
- 数据分割:
- 训练集: 193个样本,6948字节
- 测试集: 28个样本,1008字节
- 总大小: 7956字节
- 下载大小: 6463字节
6. parallel_scaling_law
- 特征: num_params (int64), parallel_size (int64), group (string), loss (float64)
- 数据分割:
- 训练集: 36个样本,1170字节
- 测试集: 12个样本,390字节
- 总大小: 1560字节
- 下载大小: 4551字节
7. sft_scaling_law
- 特征: group (string), sft_data_size (int64), sft_loss (float64)
- 数据分割:
- 训练集: 504个样本,25896字节
- 测试集: 42个样本,2158字节
- 总大小: 28054字节
- 下载大小: 9274字节
8. vocab_scaling_law
- 特征: group (string), non_vocab_parameters (float64), vocab_size (float64), num_characters (float64), unigram_normalized_loss (float64)
- 数据分割:
- 训练集: 1080个样本,47520字节
- 测试集: 120个样本,5280字节
- 总大小: 52800字节
- 下载大小: 23841字节
搜集汇总
数据集介绍

构建方式
在深度学习扩展性研究领域,sldbench数据集通过系统化实验设计构建,涵盖多个关键配置模块。每个模块针对特定扩展维度,如数据约束、领域混合、学习率与批大小等,采用控制变量法收集模型训练过程中的损失与参数指标。数据源自大规模语言模型训练实验,确保数值的实证基础与可复现性。
特点
该数据集具备多维度扩展性分析能力,包含八个独立配置模块,覆盖参数规模、数据量、词汇表设计等核心因素。特征字段设计严谨,如损失值、参数数量、令牌数量等均为浮点型数值,支持定量分析。数据集规模适中,训练集与测试集划分清晰,便于模型评估与泛化能力验证。
使用方法
研究者可通过HuggingFace平台直接加载特定配置模块,如data_constrained_scaling_law或moe_scaling_law,调用标准数据加载接口获取结构化数据。适用于扩展律实证研究、模型性能预测分析以及训练策略优化。数据已预分为训练与测试集,支持跨模块对比实验与元分析研究。
背景与挑战
背景概述
在深度学习模型规模扩展的探索中,sldbench数据集应运而生,专注于规模定律的实证研究。该数据集由前沿研究机构构建,旨在系统性地揭示模型参数、数据规模、学习率等关键因素与模型性能间的量化关系。其多配置设计覆盖了数据约束、领域混合、专家网络等多个维度,为大规模语言模型的优化与部署提供了坚实的实验基础,显著推动了计算语言学与人工智能领域的可解释性研究。
当前挑战
规模定律研究面临模型性能预测的复杂性挑战,需精确量化参数规模、数据量与损失函数间的非线性关系。构建过程中需协调多变量实验设计,确保数据一致性与可比性;同时,处理高维参数空间中的稀疏采样问题,以及在不同计算约束下保持实验的可重复性,均为数据集构建的核心难点。
常用场景
经典使用场景
在深度学习扩展定律研究中,sldbench数据集被广泛应用于构建参数规模、数据量和计算资源与模型性能之间的定量关系模型。该数据集通过多维度实验数据,支持研究者探索不同约束条件下的损失函数变化规律,为神经网络扩展行为提供实证基础。其结构化设计使得能够系统性地分析模型规模扩展时的性能边界,成为扩展定律验证的核心基准工具。
衍生相关工作
基于sldbench数据集,研究者开发了多项扩展定律建模的重要工作。其中包括改进的学习率-批量大小扩展定律、混合专家模型扩展预测框架,以及词汇表规模优化算法等。这些衍生研究深化了对神经网络扩展行为的理解,推动了如Chinchilla缩放定律等经典理论的完善,为后续大规模模型训练提供了理论基础和方法支撑。
数据集最近研究
最新研究方向
在深度学习扩展定律研究领域,sldbench数据集正推动多维度扩展规律的探索。当前研究聚焦于混合专家模型(MoE)的参数效率优化,通过分析专家数量与验证损失的关系,揭示稀疏架构的扩展特性。数据受限场景下的扩展规律成为热点,研究者通过令牌数量与模型损失的关联性,优化数据约束条件下的训练策略。领域混合扩展定律的研究显著推进了多源数据融合理论,通过分析不同领域数据比例对损失函数的影响,为跨领域迁移学习提供量化依据。学习率与批量大小的协同缩放规律研究持续深化,其改进版本进一步优化了超参数缩放的理论框架。这些研究共同推动大模型训练从经验性实践向可预测性科学转变,对降低计算成本、提升训练效率具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



