sijieli/scalebench

Name: sijieli/scalebench
Creator: sijieli
Published: 2026-04-30 22:39:27
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/sijieli/scalebench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个预算高效缩放定律拟合基准，包含8个表格回归任务和65个缩放定律实例。这些任务覆盖了语言模型缩放设置中的多种场景，包括预训练超参数调整、数据分配、词汇设计、领域混合优化、混合专家设计、稀疏性、并行/推理时间缩放以及Farseer风格的密集预训练缩放。每个任务都存储为单独的Hugging Face配置，包含训练和测试分割。数据集旨在评估在预算约束下进行实验选择和主动实验设计的方法，用于缩放定律拟合。

This dataset is a budget-efficient scaling law fitting benchmark containing 8 tabular regression tasks and 65 scaling-law instances. The tasks cover language-model scaling settings including pre-training hyperparameter tuning, data allocation, vocabulary design, domain mixture optimization, mixture-of-experts design, sparsity, parallel/inference-time scaling, and Farseer-style dense pre-training scaling. Each task is stored as a separate Hugging Face configuration with train and test splits. The benchmark is designed for evaluating experiment-selection and active experimental-design methods for scaling-law fitting under budget constraints.

提供机构：

sijieli

搜集汇总

数据集介绍

构建方式

在大型语言模型的研究范式中，缩放定律（scaling law）揭示了模型性能与计算资源、数据规模之间的幂律关系，然而精确拟合这一规律往往耗费高昂的实验成本。为应对这一挑战，ScaleBench数据集应运而生，专为预算约束下的主动实验设计而构建。该数据集系统性地收集了来自八类典型语言模型缩放场景的真实实验数据，涵盖预训练超参数调优、数据分配、词汇表设计、领域混合优化、混合专家模型设计、稀疏性探索、并行推理缩放以及Farseer式密集预训练等任务。每一任务均以独立的HuggingFace配置形式存储，并划分为训练集与测试集，其中训练集作为可供挑选的候选实验池，测试集则模拟高成本、难以获取的目标外推区域。数据集的构建严格遵循原文所定义的缩放定律函数形式，并在每项任务目录中附带了对应的参数化方程文件，确保研究者能够复现基准测试流程。

使用方法

使用ScaleBench开展实验评估时，研究者应将其视为一个预算感知的序贯实验设计基准平台。典型流程将训练集视为可执行候选实验池，测试集作为高成本目标外推区域，在模拟预算约束下依次挑选实验，拟合非线性缩放定律，并评估在未观测区域的预测质量。数据加载简便，可直接通过HuggingFace datasets库调用load_dataset函数并按需选择配置，如load_dataset('sijieli/scalebench', 'lr_bsz_scaling_law')。每个配置均伴随对应的缩放定律函数文件laws.py，其中定义了LAW_REGISTRY、PARAM_COUNTS及参数边界，便于拟合代码调用。研究者还可根据registry.py中的默认成本代理对实验进行排序，或自定义成本函数，以比较不同主动实验选择方法在稀疏观测下的外推性能，从而优化目标区域预测而非仅在训练集内拟合。

背景与挑战

背景概述

在大型语言模型（LLM）的研发进程中，缩放定律（Scaling Laws）作为指导模型与数据规模扩展的核心理论基础，其精确拟合直接关乎训练资源的高效配置。然而，传统缩放定律的验证往往依赖于海量实验，成本高昂且耗时漫长。在此背景下，由Sijie Li、Shanda Li、Haowei Lin等研究者于2026年提出的ScaleBench数据集应运而生，该数据集旨在为预算约束下的缩放定律拟合提供系统性基准测试平台。ScaleBench隶属于CC-BY-4.0许可协议，汇聚了8类表格回归任务与65个缩放定律实例，全面覆盖了预训练超参数调优、数据分配、词表设计、领域混合优化、混合专家模型设计、稀疏性、并行推理缩放以及Farseer式密集预训练等语言模型关键场景。该数据集的诞生不仅为主动实验选择与实验设计方法提供了标准化的评估框架，更推动了对高性价比缩放定律拟合策略的深入探索。

当前挑战

ScaleBench所应对的核心挑战在于如何以有限预算精准拟合缩放定律，这一难题横跨两大维度。其一，在领域层面，传统缩放定律研究常依赖全覆盖式实验，导致计算资源极大浪费且难以推及更多样化的模型配置；而实际应用亟需一种方法，能在稀疏观测条件下仍能可靠外推至高成本未探索区域，并优化目标区域的预测质量而非单纯拟合样本内表现。其二，在数据构建层面，数据集需整合来自不同场景的异构任务，如领域混合与混合专家模型等，每个任务均附带特定的成本代理（如参数量与数据量的乘积）以及专有的非线性缩放定律族，这要求设计者不仅需协调多源数据的一致性，还需确保配套的拟合代码与参数边界定义完备，以便于基准协议的科学复现与公平比较。

常用场景

经典使用场景

在语言模型规模化定律（Scaling Law）的研究中，ScaleBench数据集被广泛应用于预算高效的实验设计与拟合任务。该数据集汇集了包括预训练超参数调优、数据分配、词汇设计、领域混合优化、混合专家模型设计、稀疏性、并行推理缩放以及Farseer式密集预训练缩放在内的八类表格回归任务，共计65个规模化定律实例。研究者可将训练集视作可运行的候选实验池，测试集作为外推评估的目标区域，通过在有限预算下顺序选择实验，拟合非线性规模化定律，并预测高成本未被探索区域的表现。该基准特别适合比较不同主动实验选择方法在外推预测质量上的优劣。

解决学术问题

ScaleBench核心解决了规模化定律研究中预算约束下实验设计效率低下的学术难题。传统方法依赖大量全量实验拟合定律，成本高昂且缺乏系统性。该数据集通过提供带有异质成本代理的标准化基准，使研究者能够系统评估主动学习和实验选择算法在稀疏观测下拟合非线性定律的能力。其意义在于推动了从经验性试错到数据驱动策略的转变，使得在有限计算预算内准确推断模型性能边界成为可能，进而为大规模语言模型训练的资源分配提供理论指导，降低了探索最优配置的门槛。

实际应用

在实际应用中，ScaleBench为机器学习工程团队提供了一套切实可行的工具，用于在开发大规模语言模型时优化资源投入。例如，数据团队可利用其领域混合子集，以最小成本测试不同数据配比对下游任务损失的影响；算法工程师则通过学习率与批大小缩放子集，在正式训练前高效选定超参数。此外，该基准可直接嵌入自动化机器学习流水线，辅助决策何时停止实验或转向新配置。这些应用显著缩短了模型开发周期，并避免了因盲目扩大规模造成的计算浪费。

数据集最近研究