scaling_law_discovery_results
收藏Scaling Law Discovery Results Dataset 概述
数据集基本信息
- 数据集名称: Scaling Law Discovery Results Dataset
- 数据集地址: https://huggingface.co/datasets/pkuHaowei/scaling_law_discovery_results
- 许可证: Apache-2.0 License
- 标签: code, scaling-laws, benchmark, evaluation, agent-performance, machine-learning, llm-agents
- 语言: 英语 (en)
- 数据规模: n<1K
- 相关论文: "Can Language Models Discover Scaling Laws?" (arXiv:2507.21184)
数据集内容与目的
本数据集包含了来自 Scaling Law Discovery (SLDBench) 基准测试的完整结果集合。该基准测试旨在评估各种AI智能体从实验性大语言模型训练数据中发现数学缩放定律的能力。
数据条目构成
每个条目代表一个智能体尝试从训练数据中发现缩放定律的结果,包含以下信息:
- 任务信息: 目标缩放定律类型
- 智能体信息: 尝试发现的AI智能体名称
- 基础模型: 驱动智能体的底层大语言模型
- 性能指标: 在未见过的测试数据上的外推精度R²分数
- 解决方案代码: 智能体发现的完整Python缩放定律实现代码
数据集意义
- 追踪基准测试进展: 比较不同智能体在缩放定律发现任务上的表现。
- 代码可重用性: 获取成功的缩放定律实现。
- 研究支持: 分析智能体在不同任务和模型上的表现模式。
任务构成
数据集包含8个不同的缩放定律发现任务的结果,每个任务对应一个独立的数据分割。
| 任务名称 | 描述 | 配置文件名 |
|---|---|---|
| 并行缩放定律 | 建模并行度P和模型大小N对训练损失的影响 | parallel_scaling_law |
| 词汇表缩放定律 | 建模一元标准化损失与模型大小N、词汇表大小V和数据集大小D的函数关系 | vocab_scaling_law |
| 监督微调缩放定律 | 基于不同基础模型的数据集大小D建模监督微调损失 | sft_scaling_law |
| 领域混合缩放定律 | 基于训练混合比例建模不同领域的预训练损失 | domain_mixture_scaling_law |
| 混合专家缩放定律 | 建模损失与混合专家架构中网络大小N和专家数量E的关系 | moe_scaling_law |
| 数据受限缩放定律 | 建模预训练损失与模型大小N、数据集大小D和唯一标记U的函数关系 | data_constrained_scaling_law |
| 学习率与批大小缩放定律 | 基于学习率η、批大小b、数据集大小D和网络大小N建模损失 | lr_bsz_scaling_law |
| 简单问题缩放定律 | 建模简单基准问题上的性能与模型规模的关系 | easy_question_scaling_law |
评估指标
- 主要指标: R² (决定系数),用于衡量外推精度。
- R² = 1.0: 对未见区域完美外推。
- R² = 0.0: 预测效果不优于均值。
- R² < 0.0: 预测效果差于均值(在极具挑战性的任务中可能出现)。
数据模式
数据集以JSONL文件格式存储(每个任务一个文件),每个任务作为独立的分割,便于通过Hugging Face datasets库访问。
| 列名 | 类型 | 描述 | 示例 |
|---|---|---|---|
task |
string | 缩放定律任务名称 | "parallel_scaling_law", "data_constrained_scaling_law" |
agent_name |
string | AI智能体名称 | "SLDAgent", "claude-code", "codex" |
model_name |
string | 智能体使用的基础模型 | "gpt-5", "gemini-2.5-flash" |
reward_r2 |
float64 | 在测试数据上的R²性能分数 | 0.999985 |
solution |
string | 发现的缩放定律的完整Python代码 | 参见下方示例 |
数据示例
json { "task": "parallel_scaling_law", "agent_name": "SLDAgent", "model_name": "gpt-5", "reward_r2": 0.999985, "solution": "# EVOLVE-BLOCK-START import numpy as np from scipy.optimize import minimize
def scaling_law_func(data_points, params): # loss(N,k) = L0 + A*(N/1e9)^(-alpha) + G*(k^(-1/2) - 1) ..." }
加载与使用
数据集可通过Hugging Face datasets库、直接读取JSONL文件或使用Pandas加载。README文件中提供了详细的代码示例,包括:
- 加载所有任务分割或特定任务。
- 使用Pandas进行数据合并与分析。
- 进行智能体性能比较、任务难度分析、结果筛选和可视化。
引用信息
论文引用
bibtex @article{lin2025languagemodelsdiscoverscaling, title={Can Language Models Discover Scaling Laws?}, author={Haowei Lin and Haotian Ye and Wenzheng Feng and Quzhe Huang and Yujun Li and Hubert Lim and Zhengrui Li and Xiangyu Wang and Jianzhu Ma and Yitao Liang and James Zou}, journal={arXiv preprint arXiv:2507.21184}, year={2025}, eprint={2507.21184}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2507.21184} }
数据集引用
bibtex @misc{scaling_law_discovery_results_2025, title={Scaling Law Discovery Results Dataset}, author={Lin, Haowei and Contributors}, year={2025}, howpublished={url{https://huggingface.co/datasets/linhaowei/scaling-law-discovery-results}} }
相关资源
- 原始基准测试代码: https://github.com/linhaowei1/SLD
- 基准测试数据集: https://huggingface.co/datasets/pkuHaowei/sldbench
- 实时排行榜: https://linhaowei1.github.io/scaling_law_discovery
- OpenEvolve框架: https://github.com/codelion/openevolve




