Automated LLM Speedrunning Benchmark

Name: Automated LLM Speedrunning Benchmark
Creator: Meta, University of Edinburgh
Published: 2025-07-01 05:56:29
License: 暂无描述

arXiv2025-07-01 更新2025-07-01 收录

下载链接：

https://github.com/facebookresearch/llm-speedrunner

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Meta和爱丁堡大学的研究人员创建，旨在评估大型语言模型（LLM）在自动科学发现中的可重复性。数据集包含21个连续的NanoGPT速度记录，每个记录都提供了训练脚本、训练时间和代码变更摘要。数据集的任务要求AI研究代理在没有或提供不同级别提示的情况下，重现这些速度提升。该数据集的独特之处在于，它专注于评估LLM在自动化科学发现中的可重复性能力，特别是对于加速LLM训练的发现的重现能力。数据集的设计使得评估LLM代理在重现实验结果方面的能力变得简单而有效，这对于实现更强大的AI研究代理以加速科学发现的步伐至关重要。

This dataset was created by researchers from Meta and the University of Edinburgh to evaluate the reproducibility of large language models (LLMs) in automated scientific discovery. The dataset contains 21 consecutive NanoGPT speed records, each providing training scripts, training durations, and summaries of code changes. The task of this dataset requires AI research agents to reproduce these speedups with or without prompts of varying levels. What distinguishes this dataset is its focus on assessing the reproducibility capabilities of LLMs in automated scientific discovery, particularly the ability to reproduce findings that accelerate LLM training. The design of this dataset enables straightforward and effective evaluation of LLM agents' capacity to reproduce experimental results, which is pivotal for developing more robust AI research agents to expedite the pace of scientific discovery.

提供机构：

Meta, University of Edinburgh

创建时间：

2025-06-28

原始信息汇总

LLM Speedrunner 数据集概述

数据集简介

名称：LLM Speedrunner
用途：评估前沿LLM代理在科学发现再现能力方面的基准测试
核心任务：要求LLM代理根据提示信息再现NanoGPT Speedrun中的创新成果
提示级别：
- 级别1：变更的伪代码
- 级别2：文本描述
- 级别3：描述改进的Markdown论文

数据集结构

config：实验运行涉及的Hydra配置文件
core & util：实现代理脚手架逻辑的源代码
workspace_templates：任务起始工作区模板
- nanogpt_speedrun：速度运行任务工作区
data/nanogpt_speedrun_knowledge_in_levels：速度运行任务使用的提示数据
conda_envs：不同速度运行任务集的Conda环境需求文件
launchers：不同实验设置的便捷启动脚本
analysis：生成论文分析和图表的Jupyter笔记本

设置与使用

环境配置

记录1-11： bash conda env create -f conda_envs/speedrunner-1-11/environment-1-11.yml conda activate record-1-11 pip install -r pip_requirements-1-11.txt
记录12-18： bash conda env create -f conda_envs/speedrunner-12-18/environment-12-18.yml conda activate record-12-18 pip install -r pip_requirements-12-18.txt
记录19-21： bash tar xzvf speedrunner-19-21.tar.gz -C ~/path/to/envs/environment-19-21 ~/path/to/envs/environment-19-21/bin/conda-unpack source ~/path/to/envs/environment-19-21/bin/activate

API密钥配置

复制config/secrets/default.template.yaml到config/secrets/default.yaml并添加相关LLM提供商的API密钥。

示例命令

运行AIDE： bash python launch_scientist.py model=o3_mini science_runner=aide task=nanogpt_speedrun/speedrun_record_1 n_iterations=5
外部知识源： bash python launch_scientist.py model=o3_mini task=nanogpt_speedrun/speedrun_record_1 knowledge_src_paths=["data/nanogpt_speedrun_knowledge_in_levels/record_1/level_1_*.txt"]

扩展框架

添加模型：在config/model/your_model.yaml中添加模型配置。
添加任务：
1. 在workspace_templates/下创建任务文件夹。
2. 在config/task/your_task.yaml中创建任务配置。
自定义编码器：
1. 在coders/your_coder.py中实现自定义编码器。
2. 在config/coder/your_coder.yaml中添加默认配置。

代理脚手架设计

实验循环阶段：
- 构思
- 实验实现
- 实验执行
- 结果分析
版本化工作区：跟踪实验过程中创建的代码库的完整历史。

许可证

类型：CC BY-NC 4.0

搜集汇总

数据集介绍

构建方式

Automated LLM Speedrunning Benchmark数据集的构建基于NanoGPT Speedrun竞赛中的一系列社区驱动的改进。该数据集包含19个连续的速度运行任务，每个任务提供前一个记录的训练脚本，并可选地搭配三种提示格式之一，从伪代码到类似论文的新记录改进描述。记录设计为快速执行，改进涵盖了从高级算法进步到硬件感知优化的多样化代码级变更。这些特性使得该基准测试既易于访问，又对改进LLM训练的前沿问题具有现实意义。

特点

Automated LLM Speedrunning Benchmark数据集的特点在于其专注于评估AI代理在LLM训练领域重现现有科学创新的能力。与之前的自动科学重现性基准不同，该数据集不仅评估代理重现单个结果的能力，还包括重现一系列研究创新链中每个增量进展的能力。此外，所有任务共享相同的成功指标（达到目标验证损失的训练时间），使得精确重现、公平比较和跨任务比较变得简单直接。

使用方法

Automated LLM Speedrunning Benchmark的使用方法包括为每个连续的速度运行记录任务分配一个AI研究代理，从前一个记录开始，并可选地搭配各种格式和详细程度的提示集。代理的性能通过比较代理解决方案R′ i与Ri的相对加速来评估。基准测试的完整性能是所有包含记录的平均FSR。此外，数据集还支持无提示的记录优化任务，代理必须生成一个新的训练脚本解决方案R′ i+1，以最小的训练时间t′ i+1达到目标验证损失。

背景与挑战

背景概述

Automated LLM Speedrunning Benchmark数据集由Meta和爱丁堡大学的研究团队于2025年6月提出，旨在评估AI智能体在LLM训练领域的科学重现能力。该数据集基于NanoGPT Speedrun竞赛，该竞赛聚焦于优化GPT-2模型的训练时间。核心研究问题是通过19个渐进式任务，测试智能体基于前序记录和不同提示格式（从伪代码到论文式描述）重现训练优化的能力。该数据集创新性地将社区驱动的实际研究进展转化为可量化的评估基准，对自动化科学研究、LLM训练优化等领域具有重要影响，为衡量AI智能体的科学重现能力提供了首个序列化研究创新链的测试平台。

当前挑战

该数据集面临双重挑战：在领域问题层面，需要解决LLM训练优化的复杂技术难题，包括从算法改进到硬件感知优化的多级优化；在构建层面，需精确设计19个连续任务的难度梯度，确保每个任务包含明确的代码级真实变化。具体挑战包括：1) 如何准确量化智能体重现训练速度提升的百分比；2) 设计多级提示系统（伪代码/文本描述/论文摘要）以控制信息量；3) 保持硬件配置一致性以实现跨任务公平比较；4) 处理后期记录中涉及的前沿优化技术（如FlexAttention）对智能体知识截止时间的敏感性。这些挑战使该数据集成为测试AI智能体科学重现能力的严格基准。

常用场景

经典使用场景

Automated LLM Speedrunning Benchmark数据集专注于评估大型语言模型（LLM）代理在重现和改进NanoGPT Speedrun记录方面的能力。该数据集通过提供一系列连续的速度运行任务，要求代理从前一个记录的脚本出发，结合不同详细程度的提示，重现或优化下一个记录的改进。这一场景特别适用于研究自动化科学重现和LLM训练优化的前沿问题。

实际应用

在实际应用中，该数据集可用于开发和测试能够自动化改进LLM训练流程的AI代理。这些代理可以应用于实际的语言模型开发中，帮助研究人员快速测试和实现各种训练优化策略，从而加速模型开发周期并提高训练效率。数据集聚焦于真实世界LLM开发的改进，使其结果具有直接的实用价值。

衍生相关工作

该数据集衍生了一系列关于自动化科学重现和LLM训练优化的研究工作。基于其框架，研究者可以开发更先进的代理架构，探索如何结合外部知识进行改进，以及如何将重现能力扩展到更复杂的机器学习任务中。数据集还为研究代码生成与科学论文到代码的转换提供了新的评估基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集