metrics_dclm_data_mixture.csv, metrics_c4_mixture.csv

github2025-12-12 更新2025-12-18 收录

下载链接：

https://github.com/apple/ml-scaling-downstream-metrics

下载链接

链接失效反馈

官方服务：

资源简介：

`metrics_dclm_data_mixture.csv` 包含基于DCLM混合训练的模型的架构细节、评估损失和基准准确率结果，如论文第3节所述。`metrics_c4_mixture.csv` 包含在C4数据集上训练的模型的架构细节、评估损失和基准准确率结果。

`metrics_dclm_data_mixture.csv` contains architectural details, evaluation losses, and baseline accuracy results for models trained with DCLM data mixture, as detailed in Section 3 of the associated paper. `metrics_c4_mixture.csv` contains architectural details, evaluation losses, and baseline accuracy results for models trained on the C4 dataset.

创建时间：

2025-12-12

原始信息汇总

数据集概述

数据集来源

该数据集来源于论文《Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training》（arXiv:2512.08894）的配套资源。

数据内容

数据集包含两个CSV文件：

metrics_dclm_data_mixture.csv：包含在DCLM混合数据上训练的模型的架构细节、评估损失和基准测试准确率结果。
metrics_c4_mixture.csv：包含在C4数据集上训练的模型的架构细节、评估损失和基准测试准确率结果。

缩放定律拟合代码

在 scaling_law_forms 目录下提供了论文中分析的缩放定律形式的拟合脚本：

equation_1_bnsl.py：对应论文第3.2节中的公式1。
equation_2_power_law.py：对应论文第3.2节中的公式2。
equation_4_multi_token_to_param_ratio.py：对应论文第3.3节中的公式4。
equation_5_pass_at_k.py：对应论文第3.4节中的公式5。
twostage_linear.py：采用线性依赖关系的两阶段方法。
twostage_logistic.py：采用逻辑函数依赖关系的两阶段方法。
equation_6_with_q_max：对应论文附录L中的公式10。

引用信息

如需在研究中引用此工作，请使用以下BibTeX条目：

@article{krajewski2025revisiting, title = {Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training}, author = {Jakub Krajewski and Amitis Shidani and Dan Busbridge and Sam Wiseman and Jason Ramapuram}, journal = {arXiv preprint arXiv:2512.08894}, year = {2025}, archivePrefix = {arXiv}, primaryClass = {cs.LG} }

搜集汇总

数据集介绍

构建方式

在大型语言模型训练领域，理解下游指标与模型规模之间的关联性至关重要。该数据集通过系统化实验构建，涵盖了基于DCLM混合数据与C4数据集训练的不同架构模型。具体而言，研究团队在多样化模型配置下进行训练，并精确记录了评估损失及多项基准测试的准确率结果，从而形成了两个结构化的CSV文件，为后续的缩放定律分析提供了实证基础。

特点

该数据集的核心特征在于其全面性与结构化设计。它不仅包含了模型架构的详细参数，还整合了评估损失与下游任务准确率的多维度指标，使得研究者能够深入探究训练数据混合策略对模型性能的影响。数据集以CSV格式存储，便于直接进行数据处理与统计分析，同时附带的缩放定律拟合代码进一步增强了其在模型缩放研究中的实用价值。

使用方法

为有效利用该数据集，研究者可首先加载CSV文件以获取模型性能数据。随后，借助提供的缩放定律拟合脚本，用户能够对下游指标与模型规模之间的关系进行定量分析，例如拟合幂律关系或探索多阶段线性依赖。这些分析方法有助于揭示训练过程中的缩放规律，为优化模型架构与数据策略提供科学依据。

背景与挑战

背景概述

在大型语言模型（LLM）训练领域，理解模型规模、训练数据与下游任务性能之间的标度关系是核心研究议题。数据集metrics_dclm_data_mixture.csv与metrics_c4_mixture.csv源自2025年arXiv预印本论文《Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training》，由Jakub Krajewski等研究人员构建。该数据集系统收录了基于DCLM混合数据与C4数据集训练的模型架构细节、评估损失及基准测试准确率结果，旨在重新审视下游指标在模型训练中的标度特性，为优化模型训练效率与性能预测提供实证基础，对推动LLM可预测性研究具有重要参考价值。

当前挑战

该数据集致力于解决大型语言模型训练中下游任务性能标度律建模的挑战，即如何准确刻画模型规模、数据量与最终评估指标间的复杂函数关系。构建过程中的挑战主要体现在数据采集与整合层面：需要协调不同模型架构在异构训练数据（如DCLM混合与C4）上的大量实验输出，确保评估指标的一致性；同时，拟合多种标度律形式（如幂律、逻辑函数等）要求数据具有高精度与可比性，以支撑稳健的统计分析与理论验证。

常用场景

经典使用场景

在大型语言模型训练的研究中，该数据集为探索下游任务性能的缩放规律提供了关键实证基础。研究人员利用其记录的模型架构细节、评估损失与基准准确率，系统分析不同数据混合策略下模型性能随规模变化的趋势，从而验证或修正现有的缩放定律理论。

解决学术问题

该数据集直接应对了大型语言模型训练中下游指标缩放性质不明确的核心学术挑战。通过提供基于DCLM和C4数据混合训练的详细性能指标，它帮助研究者量化模型规模、数据质量与最终任务准确率之间的复杂关系，为构建更精确的预测模型奠定数据基础，推动了缩放定律研究的实证化与精细化。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于缩放定律的形式化与扩展。例如，相关研究利用其数据拟合了幂律关系、多令牌参数比方程以及通过率方程等多种缩放形式，并发展了两阶段线性与逻辑回归拟合方法。这些工作深化了对损失-准确率关联机制的理解，促进了更通用缩放预测框架的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集