Automated LLM Speedrunning Benchmark
收藏LLM Speedrunner 数据集概述
数据集简介
- 名称:LLM Speedrunner
- 用途:评估前沿LLM代理在科学发现再现能力方面的基准测试
- 核心任务:要求LLM代理根据提示信息再现NanoGPT Speedrun中的创新成果
- 提示级别:
- 级别1:变更的伪代码
- 级别2:文本描述
- 级别3:描述改进的Markdown论文
数据集结构
config:实验运行涉及的Hydra配置文件core&util:实现代理脚手架逻辑的源代码workspace_templates:任务起始工作区模板nanogpt_speedrun:速度运行任务工作区
data/nanogpt_speedrun_knowledge_in_levels:速度运行任务使用的提示数据conda_envs:不同速度运行任务集的Conda环境需求文件launchers:不同实验设置的便捷启动脚本analysis:生成论文分析和图表的Jupyter笔记本
设置与使用
环境配置
-
记录1-11: bash conda env create -f conda_envs/speedrunner-1-11/environment-1-11.yml conda activate record-1-11 pip install -r pip_requirements-1-11.txt
-
记录12-18: bash conda env create -f conda_envs/speedrunner-12-18/environment-12-18.yml conda activate record-12-18 pip install -r pip_requirements-12-18.txt
-
记录19-21: bash tar xzvf speedrunner-19-21.tar.gz -C ~/path/to/envs/environment-19-21 ~/path/to/envs/environment-19-21/bin/conda-unpack source ~/path/to/envs/environment-19-21/bin/activate
API密钥配置
复制config/secrets/default.template.yaml到config/secrets/default.yaml并添加相关LLM提供商的API密钥。
示例命令
-
运行AIDE: bash python launch_scientist.py model=o3_mini science_runner=aide task=nanogpt_speedrun/speedrun_record_1 n_iterations=5
-
外部知识源: bash python launch_scientist.py model=o3_mini task=nanogpt_speedrun/speedrun_record_1 knowledge_src_paths=["data/nanogpt_speedrun_knowledge_in_levels/record_1/level_1_*.txt"]
扩展框架
- 添加模型:在
config/model/your_model.yaml中添加模型配置。 - 添加任务:
- 在
workspace_templates/下创建任务文件夹。 - 在
config/task/your_task.yaml中创建任务配置。
- 在
- 自定义编码器:
- 在
coders/your_coder.py中实现自定义编码器。 - 在
config/coder/your_coder.yaml中添加默认配置。
- 在
代理脚手架设计
- 实验循环阶段:
- 构思
- 实验实现
- 实验执行
- 结果分析
- 版本化工作区:跟踪实验过程中创建的代码库的完整历史。
许可证
- 类型:CC BY-NC 4.0




