exp-05-02

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/AgPerry/exp-05-02

下载链接

链接失效反馈

官方服务：

资源简介：

AutoResearch² × autolab.moe 数据集是一个用于自主研究的实时实验追踪数据集，专注于 autolab.moe 研究谜题基准测试。该数据集旨在比较三种不同的测试框架（默认1-shot、V1仅内部、V2联合环境+策略）在公平比较规则下的表现，包括匹配的令牌预算、无预言注入和仅基于验证器的评分。数据集基于 claude-sonnet-4-6 模型，包含199个运行单元，总LLM成本为$0.00。数据集中包含了详细的防作弊措施、公平评分规则、任务和测试框架的最佳奖励记录，以及跨模型比较。适用于自主研究、模型性能评估和基准测试等场景。数据集规模在1K到10K之间，语言为英语。

The AutoResearch² × autolab.moe Dataset is a real-time experimental tracking dataset for autonomous research, focused on the autolab.moe research puzzle benchmark. This dataset is designed to compare the performance of three distinct test frameworks (default 1-shot, V1 internal-only, and V2 joint environment + strategy) under fair comparison criteria, including matched token budgets, no oracle injection, and validator-only scoring. Built on the claude-sonnet-4-6 model, the dataset contains 199 running units with a total LLM cost of $0.00. It includes detailed anti-cheating measures, fair scoring protocols, optimal reward records for tasks and test frameworks, and cross-model comparisons. The dataset is applicable to scenarios including autonomous research, model performance evaluation, and benchmark testing. It has a scale ranging from 1K to 10K and is in English.

创建时间：

2026-05-02

原始信息汇总

AutoResearch² × autolab.moe 数据集概述

基本信息

数据集名称: AutoResearch² × autolab.moe — Live Experiment Tracker
许可证: MIT
语言: 英语 (en)
数据规模: 1K到10K之间 (1K < n < 10K)
任务类别: 其他 (other)
标签: autoresearch, autolab, benchmark, claude-sonnet-4-6, r2agent

实验背景

该数据集记录了AutoResearch²在autolab.moe研究谜题基准上的实验追踪。AutoResearch²将R²Agent双层设计应用于第二个自主研究领域，比较三种运行框架（默认1-shot、V1仅内部、V2联合环境+策略），在公平比较规则下运行：匹配的令牌预算、无预言机注入、仅基于验证器的评分。

实验配置

主要基础模型: claude-sonnet-4-6
最后更新: 2026-05-02 15:50:20 UTC
总运行单元数: 199
总LLM成本: $0.00

评分结果

公平得分

最终公平得分: 47.03
模型开发平均分: 0.00（5个任务，当前运行0个）
系统优化平均分: 75.54（12个任务）
谜题平均分: 65.55（6个任务）

排行榜对比

| 排名 | 模型 | 最终公平得分 | 模型开发 | 系统 | 谜题 | |---:|---:|---:|---:|---:| | 1 | Claude Opus 4.6 | 95.5 | 99.8 | 89.7 | 96.9 | | 2 | Gemini 3.1 Pro | 85.4 | 77.6 | 96.5 | 82.2 | | 3 | MiMo V2 Pro | 79.1 | 98.8 | 82.3 | 56.2 | | 4 | GLM-5 | 74.7 | 98.6 | 78.3 | 47.2 | | 5 | GPT-5.4 | 71.9 | 99.0 | 70.2 | 46.7 | | 6 | Kimi K2.5 | 70.3 | 100.0 | 81.7 | 29.2 | | 7 | Qwen 3.5 Plus | 67.6 | 100.0 | 72.3 | 30.5 | | 8 | AutoResearch² (claude-sonnet-4-6) | 47.0 | 0.0 | 75.5 | 65.6 |

任务详情

各任务最佳奖励（跨种子和运行框架）

任务	类别	最佳奖励	归一化	运行框架	种子	结果
aes128_ctr	system	0.6124	1.000	default	42	✓
bm25_search_go	system	0.4288	0.858	default	100	✓
bvh_raytracer	system	0.6276	1.000	v1	200	✓
concurrent_kv_wal	system	0.4919	0.984	v1	100	✓
fft_rust	system	0.5057	1.000	v2	314	✓
flash_attention	system	0.3837	0.767	v1	200	✓
gaussian_blur	system	0.4138	0.828	v2	200	✓
hash_join	system	1.0000	1.000	v1	314	✓
radix_sort	system	0.3180	0.636	default	314	✓
regex_engine	system	0.1773	0.355	v2	42	✓
sha256_throughput	system	0.3188	0.638	v1	314	✓
sstable_compaction_rs	system	0.0000	0.000	default	42	✗
discover_sorting	puzzle	1.0000	1.000	default	200	✓
fredkin_sort_network	puzzle	待定	—	—	—	—
smallest_game_player	puzzle	0.0000	0.000	default	42	✗
stack_machine_golf	puzzle	1.0000	1.000	default	314	✓
toy_isa_opt	puzzle	0.9333	0.933	v1	42	✓
vliw_scheduler	puzzle	1.0000	1.000	v2	42	✓
data_select_ifeval	model_dev	待定	—	—	—	—
grpo_multisource	model_dev	待定	—	—	—	—
llm_online_serving	model_dev	待定	—	—	—	—
multilingual_ocr	model_dev	待定	—	—	—	—
scaling_law	model_dev	待定	—	—	—	—

跨模型对比（V2运行框架）

使用V2（联合环境+策略）运行框架，在17个任务上使用种子=42，不同基础模型的对比结果： | 基础模型 | 单元数 | 公平得分 | 模型开发 | 系统 | 谜题 | |---:|---:|---:|---:|---:| | opus47 | 17 | 40.8 | 0.0 | 56.7 | 65.8 | | gemini-pro | 17 | 37.4 | 0.0 | 55.3 | 56.9 | | gpt-5-4 | 17 | 34.3 | 0.0 | 56.4 | 46.4 | | deepseek-pro | 17 | 23.5 | 0.0 | 37.2 | 33.3 | | haiku45 | 17 | 16.9 | 0.0 | 35.5 | 15.3 | | qwen-flash | 17 | 12.8 | 0.0 | 27.4 | 10.8 | | glm-5-1 | 17 | 0.0 | 0.0 | 0.0 | 0.0 | | kimi-k2-6 | 17 | 0.0 | 0.0 | 0.0 | 0.0 |

数据文件结构

cells/<cell_id>/scores.json — 最终奖励、正确性、令牌总数、运行框架、种子、单元ID
audit/<cell_id>.jsonl — 仅追加的逐次调用审计记录
summary.json — 聚合的公平得分及每个任务的最佳奖励
fair_score.json — 与summary.json相同内容，按排行榜规则文档命名
harness_breakdown.json — 每个（运行框架，任务）的最佳奖励

搜集汇总

数据集介绍

构建方式

在自主科学研究的前沿领域，R²Agent双层架构被创新性地应用于autolab.moe研究谜题基准测试中，据此构建了exp-05-02数据集。该数据集通过三种对比实验框架（默认单样本基线、V1内环仅含奖励反馈的R²Agent、V2联合环境与策略演化的R²Agent）进行系统化采集。在公平比较规则约束下，所有实验均采用匹配的令牌预算、无神谕注入机制，并仅依赖验证器评分。每个实验单元独立运行，生成包含时间戳、模型响应标识、提示内容与响应哈希值及令牌消耗的详细审计日志，确保了数据采集过程的可追溯性与完整性。

特点

该数据集展现出显著的结构化与可比性特征。其涵盖系统优化、谜题求解与模型开发三大类别共22项任务，每项任务均记录三种框架下的最优奖励值及相对默认基线的增量变化，揭示了不同策略在各类任务中的差异化效能。跨模型对比部分囊括了从高性能到基线水平的多种基础模型，为评估R²Agent架构的通用性提供了丰富视角。数据集还包含详细的赛马场比较表，将实验模型与当前顶尖模型在同一评估公式下进行量化对比，全面映射了方法在真实基准中的定位。

使用方法

研究人员可通过克隆r2agent仓库并切换到指定分支来复现该数据集。运行sprint_runner模块时指定实验框架集合、随机种子、并行工作线程数量及验证超时参数，即可自动化执行全部实验流程。每个实验单元的输出结果结构化存储在scores.json、audit目录下的JSONL审计文件及原始日志文件中。汇总文件包括summary.json（聚合公平分数与任务最优奖励）、fair_score.json及harness_breakdown.json，便于进行跨框架、跨模型的深入分析与比较。复现命令已完全封装，支持高度参数化的批量实验执行。

背景与挑战

背景概述

AutoResearch² × autolab.moe (live) 数据集（exp-05-02）由 Anthropic 研究团队于 2026 年 5 月创建，旨在评估 R²Agent 双层级设计在 autolab.moe 研究谜题基准上的自主研究能力。该数据集通过比较三种策略框架（默认单次提示、V1 内部优化、V2 联合环境与策略进化），在公平比较规则下（匹配 Token 预算、无预言机注入、仅基于验证器评分）量化语言模型的系统优化与谜题解决表现。作为 AutoResearch² 项目的关键组成部分，这一持续更新的直播实验追踪器不仅为自主智能体研究提供了标准化评估平台，还通过细粒度审计日志和反作弊机制确保了研究结果的可复现性与可信度，在推动自动化科学研究范式的发展中具有重要影响力。

当前挑战

该数据集所应对的领域核心挑战在于自主研究智能体的公平评估与防作弊机制设计，需在无人类干预条件下确保模型不泄露 oracle 解决方案，通过 per-cell 审计日志（含时间戳、模型响应哈希值及 Token 消耗）实现透明追踪。构建过程中遭遇的挑战包括：跨模型（Claude、Gemini、GPT、Qwen 等）的公平评分规则制定，需平衡不同规模模型的 Token 预算差异；复杂任务类型（系统优化、谜题推理、模型开发）的验证器鲁棒性问题，例如 sstable_compaction_rs 与 smallest_game_player 出现零分任务；以及多轮内外循环优化（V2 架构中 3 外层×3 内层策略文件进化）带来的计算成本与收敛稳定性矛盾。

常用场景

经典使用场景

数据集exp-05-02是AutoResearch²项目在autolab.moe研究谜题基准上的实时实验追踪记录，其核心价值在于评估和比较自主科研智能体在多样化系统优化与创意谜题求解任务中的表现。研究者常利用该数据集对三种不同的智能体架构（默认1-shot基线、R²Agent内循环版本、以及联合环境与策略的双层优化版本）进行公平对比实验，通过预设的token预算、无验证器泄露的防作弊机制以及基于验证器的评分体系，深入分析不同层级策略在具体任务上的性能差异。该数据集覆盖了aes128_ctr加密、放射线追踪、fft_rust等12项系统优化任务，以及discover_sorting、stack_machine_golf等6项谜题求解任务，为探索自主研究智能体的能力边界提供了标准化的实验平台。

衍生相关工作

围绕exp-05-02数据集，一系列开创性的研究路径已然铺展。数据集所依托的R²Agent双层架构直接衍生出关于"策略演化"与"环境交互"协作模式的理论分析工作，学界正尝试将这一框架泛化至机器人控制、生物序列设计等更广泛的科学研究领域。基于该数据集中跨模型对比发现的不同基座模型在System和Puzzle类别上的能力差异图谱，研究者提出了一系列关于基座模型复杂度与自主研究能力之间关系的假说，催生了针对小型模型知识蒸馏和高效适配策略的专项研究。此外，数据集中详尽的per-cell审计记录为构建智能体的可解释性分析工具提供了数据基础，已有工作尝试从中提炼关于动作偏好、探索模式与最终性能之间关联的因果性洞察，进一步推动了自主科研智能体从黑箱操作向透明可审计方向的演进。

数据集最近研究