exp-05-02
收藏AutoResearch² × autolab.moe 数据集概述
基本信息
- 数据集名称: AutoResearch² × autolab.moe — Live Experiment Tracker
- 许可证: MIT
- 语言: 英语 (en)
- 数据规模: 1K到10K之间 (1K < n < 10K)
- 任务类别: 其他 (other)
- 标签: autoresearch, autolab, benchmark, claude-sonnet-4-6, r2agent
实验背景
该数据集记录了AutoResearch²在autolab.moe研究谜题基准上的实验追踪。AutoResearch²将R²Agent双层设计应用于第二个自主研究领域,比较三种运行框架(默认1-shot、V1仅内部、V2联合环境+策略),在公平比较规则下运行:匹配的令牌预算、无预言机注入、仅基于验证器的评分。
实验配置
- 主要基础模型: claude-sonnet-4-6
- 最后更新: 2026-05-02 15:50:20 UTC
- 总运行单元数: 199
- 总LLM成本: $0.00
评分结果
公平得分
- 最终公平得分: 47.03
- 模型开发平均分: 0.00(5个任务,当前运行0个)
- 系统优化平均分: 75.54(12个任务)
- 谜题平均分: 65.55(6个任务)
排行榜对比
| 排名 | 模型 | 最终公平得分 | 模型开发 | 系统 | 谜题 | |---:|---:|---:|---:|---:| | 1 | Claude Opus 4.6 | 95.5 | 99.8 | 89.7 | 96.9 | | 2 | Gemini 3.1 Pro | 85.4 | 77.6 | 96.5 | 82.2 | | 3 | MiMo V2 Pro | 79.1 | 98.8 | 82.3 | 56.2 | | 4 | GLM-5 | 74.7 | 98.6 | 78.3 | 47.2 | | 5 | GPT-5.4 | 71.9 | 99.0 | 70.2 | 46.7 | | 6 | Kimi K2.5 | 70.3 | 100.0 | 81.7 | 29.2 | | 7 | Qwen 3.5 Plus | 67.6 | 100.0 | 72.3 | 30.5 | | 8 | AutoResearch² (claude-sonnet-4-6) | 47.0 | 0.0 | 75.5 | 65.6 |
任务详情
各任务最佳奖励(跨种子和运行框架)
| 任务 | 类别 | 最佳奖励 | 归一化 | 运行框架 | 种子 | 结果 |
|---|---|---|---|---|---|---|
| aes128_ctr | system | 0.6124 | 1.000 | default | 42 | ✓ |
| bm25_search_go | system | 0.4288 | 0.858 | default | 100 | ✓ |
| bvh_raytracer | system | 0.6276 | 1.000 | v1 | 200 | ✓ |
| concurrent_kv_wal | system | 0.4919 | 0.984 | v1 | 100 | ✓ |
| fft_rust | system | 0.5057 | 1.000 | v2 | 314 | ✓ |
| flash_attention | system | 0.3837 | 0.767 | v1 | 200 | ✓ |
| gaussian_blur | system | 0.4138 | 0.828 | v2 | 200 | ✓ |
| hash_join | system | 1.0000 | 1.000 | v1 | 314 | ✓ |
| radix_sort | system | 0.3180 | 0.636 | default | 314 | ✓ |
| regex_engine | system | 0.1773 | 0.355 | v2 | 42 | ✓ |
| sha256_throughput | system | 0.3188 | 0.638 | v1 | 314 | ✓ |
| sstable_compaction_rs | system | 0.0000 | 0.000 | default | 42 | ✗ |
| discover_sorting | puzzle | 1.0000 | 1.000 | default | 200 | ✓ |
| fredkin_sort_network | puzzle | 待定 | — | — | — | — |
| smallest_game_player | puzzle | 0.0000 | 0.000 | default | 42 | ✗ |
| stack_machine_golf | puzzle | 1.0000 | 1.000 | default | 314 | ✓ |
| toy_isa_opt | puzzle | 0.9333 | 0.933 | v1 | 42 | ✓ |
| vliw_scheduler | puzzle | 1.0000 | 1.000 | v2 | 42 | ✓ |
| data_select_ifeval | model_dev | 待定 | — | — | — | — |
| grpo_multisource | model_dev | 待定 | — | — | — | — |
| llm_online_serving | model_dev | 待定 | — | — | — | — |
| multilingual_ocr | model_dev | 待定 | — | — | — | — |
| scaling_law | model_dev | 待定 | — | — | — | — |
跨模型对比(V2运行框架)
使用V2(联合环境+策略)运行框架,在17个任务上使用种子=42,不同基础模型的对比结果: | 基础模型 | 单元数 | 公平得分 | 模型开发 | 系统 | 谜题 | |---:|---:|---:|---:|---:| | opus47 | 17 | 40.8 | 0.0 | 56.7 | 65.8 | | gemini-pro | 17 | 37.4 | 0.0 | 55.3 | 56.9 | | gpt-5-4 | 17 | 34.3 | 0.0 | 56.4 | 46.4 | | deepseek-pro | 17 | 23.5 | 0.0 | 37.2 | 33.3 | | haiku45 | 17 | 16.9 | 0.0 | 35.5 | 15.3 | | qwen-flash | 17 | 12.8 | 0.0 | 27.4 | 10.8 | | glm-5-1 | 17 | 0.0 | 0.0 | 0.0 | 0.0 | | kimi-k2-6 | 17 | 0.0 | 0.0 | 0.0 | 0.0 |
数据文件结构
cells/<cell_id>/scores.json— 最终奖励、正确性、令牌总数、运行框架、种子、单元IDaudit/<cell_id>.jsonl— 仅追加的逐次调用审计记录summary.json— 聚合的公平得分及每个任务的最佳奖励fair_score.json— 与summary.json相同内容,按排行榜规则文档命名harness_breakdown.json— 每个(运行框架,任务)的最佳奖励




