scaling_law_discovery_results

Hugging Face2026-01-08 更新2026-01-09 收录

下载链接：

https://huggingface.co/datasets/pkuHaowei/scaling_law_discovery_results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自SLDBench基准测试的完整结果集合，其中各种AI代理尝试从实验性LLM训练数据中发现数学缩放定律。每个条目代表一个代理尝试从训练数据中发现缩放定律的尝试，包括任务信息、代理信息、基础模型、性能（R²分数）和解决方案代码。数据集涵盖了8种不同的缩放定律发现任务，如并行缩放定律、词汇缩放定律等，旨在跟踪不同代理在缩放定律发现上的表现，支持研究分析代理在不同任务和模型上的表现模式。

创建时间：

2026-01-07

原始信息汇总

Scaling Law Discovery Results Dataset 概述

数据集基本信息

数据集名称: Scaling Law Discovery Results Dataset
数据集地址: https://huggingface.co/datasets/pkuHaowei/scaling_law_discovery_results
许可证: Apache-2.0 License
标签: code, scaling-laws, benchmark, evaluation, agent-performance, machine-learning, llm-agents
语言: 英语 (en)
数据规模: n<1K
相关论文: "Can Language Models Discover Scaling Laws?" (arXiv:2507.21184)

数据集内容与目的

本数据集包含了来自 Scaling Law Discovery (SLDBench) 基准测试的完整结果集合。该基准测试旨在评估各种AI智能体从实验性大语言模型训练数据中发现数学缩放定律的能力。

数据条目构成

每个条目代表一个智能体尝试从训练数据中发现缩放定律的结果，包含以下信息：

任务信息: 目标缩放定律类型
智能体信息: 尝试发现的AI智能体名称
基础模型: 驱动智能体的底层大语言模型
性能指标: 在未见过的测试数据上的外推精度R²分数
解决方案代码: 智能体发现的完整Python缩放定律实现代码

数据集意义

追踪基准测试进展: 比较不同智能体在缩放定律发现任务上的表现。
代码可重用性: 获取成功的缩放定律实现。
研究支持: 分析智能体在不同任务和模型上的表现模式。

任务构成

数据集包含8个不同的缩放定律发现任务的结果，每个任务对应一个独立的数据分割。

任务名称	描述	配置文件名
并行缩放定律	建模并行度P和模型大小N对训练损失的影响	`parallel_scaling_law`
词汇表缩放定律	建模一元标准化损失与模型大小N、词汇表大小V和数据集大小D的函数关系	`vocab_scaling_law`
监督微调缩放定律	基于不同基础模型的数据集大小D建模监督微调损失	`sft_scaling_law`
领域混合缩放定律	基于训练混合比例建模不同领域的预训练损失	`domain_mixture_scaling_law`
混合专家缩放定律	建模损失与混合专家架构中网络大小N和专家数量E的关系	`moe_scaling_law`
数据受限缩放定律	建模预训练损失与模型大小N、数据集大小D和唯一标记U的函数关系	`data_constrained_scaling_law`
学习率与批大小缩放定律	基于学习率η、批大小b、数据集大小D和网络大小N建模损失	`lr_bsz_scaling_law`
简单问题缩放定律	建模简单基准问题上的性能与模型规模的关系	`easy_question_scaling_law`

评估指标

主要指标: R² (决定系数)，用于衡量外推精度。
- R² = 1.0: 对未见区域完美外推。
- R² = 0.0: 预测效果不优于均值。
- R² < 0.0: 预测效果差于均值（在极具挑战性的任务中可能出现）。

数据模式

数据集以JSONL文件格式存储（每个任务一个文件），每个任务作为独立的分割，便于通过Hugging Face datasets库访问。

列名	类型	描述	示例
`task`	string	缩放定律任务名称	`"parallel_scaling_law"`, `"data_constrained_scaling_law"`
`agent_name`	string	AI智能体名称	`"SLDAgent"`, `"claude-code"`, `"codex"`
`model_name`	string	智能体使用的基础模型	`"gpt-5"`, `"gemini-2.5-flash"`
`reward_r2`	float64	在测试数据上的R²性能分数	`0.999985`
`solution`	string	发现的缩放定律的完整Python代码	参见下方示例

数据示例

json { "task": "parallel_scaling_law", "agent_name": "SLDAgent", "model_name": "gpt-5", "reward_r2": 0.999985, "solution": "# EVOLVE-BLOCK-START import numpy as np from scipy.optimize import minimize

def scaling_law_func(data_points, params): # loss(N,k) = L0 + A*(N/1e9)^(-alpha) + G*(k^(-1/2) - 1) ..." }

加载与使用

数据集可通过Hugging Face datasets库、直接读取JSONL文件或使用Pandas加载。README文件中提供了详细的代码示例，包括：

加载所有任务分割或特定任务。
使用Pandas进行数据合并与分析。
进行智能体性能比较、任务难度分析、结果筛选和可视化。

引用信息

论文引用

bibtex @article{lin2025languagemodelsdiscoverscaling, title={Can Language Models Discover Scaling Laws?}, author={Haowei Lin and Haotian Ye and Wenzheng Feng and Quzhe Huang and Yujun Li and Hubert Lim and Zhengrui Li and Xiangyu Wang and Jianzhu Ma and Yitao Liang and James Zou}, journal={arXiv preprint arXiv:2507.21184}, year={2025}, eprint={2507.21184}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2507.21184} }

数据集引用

bibtex @misc{scaling_law_discovery_results_2025, title={Scaling Law Discovery Results Dataset}, author={Lin, Haowei and Contributors}, year={2025}, howpublished={url{https://huggingface.co/datasets/linhaowei/scaling-law-discovery-results}} }

相关资源

原始基准测试代码: https://github.com/linhaowei1/SLD
基准测试数据集: https://huggingface.co/datasets/pkuHaowei/sldbench
实时排行榜: https://linhaowei1.github.io/scaling_law_discovery
OpenEvolve框架: https://github.com/codelion/openevolve

搜集汇总

数据集介绍

构建方式

在扩展定律研究领域，该数据集通过系统化评估框架构建而成。其核心源于SLDBench基准测试，该测试设计了八个不同维度的扩展定律发现任务，涵盖并行扩展、词汇扩展、监督微调扩展等关键场景。构建过程中，研究者收集了多种人工智能代理在这些任务上的表现结果，每个条目记录了代理尝试从实验性大语言模型训练数据中发现数学扩展定律的完整过程。数据以JSONL格式组织，每个任务对应独立的数据分割，确保了结构清晰且便于访问。

特点

该数据集在扩展定律基准测试领域展现出鲜明的特征。其覆盖了八种不同类型的扩展定律发现任务，从经典的并行扩展定律到更具挑战性的领域混合扩展定律，提供了多维度的性能评估视角。数据集不仅包含量化的性能指标——以决定系数R²衡量代理在未见测试数据上的外推准确性，还完整保留了每个代理发现的扩展定律Python实现代码。这种设计使得数据集兼具评估基准与代码库的双重价值，为分析代理在不同任务和模型上的表现模式提供了丰富素材。

使用方法

针对扩展定律研究的实际需求，该数据集提供了灵活的使用途径。研究者可通过Hugging Face数据集库直接加载全部或特定任务分割，利用Python进行性能比较、任务难度分析和解决方案提取。数据集支持以代理名称、任务类型或性能阈值为条件进行筛选，便于深入探究不同代理在特定扩展定律场景下的表现差异。此外，数据集中的解决方案代码可直接用于复现或改进扩展定律模型，为后续研究提供了可重用的算法基础。通过整合统计分析工具，用户能够对代理性能进行统计检验，评估其发现扩展定律能力的显著性与一致性。

背景与挑战

背景概述

在大型语言模型迅猛发展的时代背景下，理解其性能随规模扩展的规律成为核心研究议题。Scaling Law Discovery Results数据集于2025年由Haowei Lin等研究人员创建，作为论文《Can Language Models Discover Scaling Laws?》的配套成果。该数据集源于首个用于评估人工智能代理发现缩放定律能力的综合性基准测试SLDBench，旨在系统探究语言模型能否从实验数据中自动归纳出描述模型规模、数据量、计算资源与性能之间关系的数学规律。其通过整合来自多个前沿研究的3200余项训练实验数据，为量化分析智能体在并行缩放、词汇表缩放、混合专家架构等八类复杂任务上的推理与泛化能力提供了标准化评估框架，对推动机器学习可预测性与自动化科学发现具有深远影响。

当前挑战

该数据集致力于解决缩放定律自动发现这一新兴领域的核心挑战，即如何让AI智能体从高维、非线性的模型训练数据中，准确抽象出具有强外推能力的简洁数学表达式。其构建过程面临多重困难：首先，基准数据的采集与整合极具复杂性，需从海量异构文献中提取并规范化数千个训练实验的元数据与结果。其次，设计能够公平评估不同智能体（如SLDAgent、Claude Code）在多样化任务上泛化性能的度量标准（如R²分数）本身即是一项挑战，需确保评估既能反映拟合优度，又能检验对未见数据区域的预测能力。此外，生成可执行且可复现的解决方案代码，并对不同智能体的发现过程与结果进行结构化记录，均对数据集的工程实现提出了严格要求。

常用场景

经典使用场景

在大型语言模型规模化研究的背景下，该数据集为评估AI智能体自动发现缩放定律的能力提供了标准化基准。研究者通过分析不同智能体在八类缩放定律任务上的表现，能够系统比较各类模型架构与训练策略的泛化性能。数据集中的R²分数与解决方案代码构成了量化分析的基础，使得跨任务、跨智能体的性能对比成为可能，为自动化科学发现领域提供了实证依据。

衍生相关工作

基于该数据集衍生的经典工作主要集中在智能体架构比较与发现算法优化两个方向。研究者通过分析不同智能体在任务间的表现差异，提出了改进代码生成与数学归纳能力的混合方法。部分工作将数据集扩展至多模态领域，探索视觉-语言联合缩放定律。另有研究利用数据集中的高精度解决方案，开发了面向新型硬件架构的缩放定律预测工具链，推动了自动化机器学习基础设施的发展。

数据集最近研究