five

exp-05-02

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/AgPerry/exp-05-02
下载链接
链接失效反馈
官方服务:
资源简介:
AutoResearch² × autolab.moe 数据集是一个用于自主研究的实时实验追踪数据集,专注于 autolab.moe 研究谜题基准测试。该数据集旨在比较三种不同的测试框架(默认1-shot、V1仅内部、V2联合环境+策略)在公平比较规则下的表现,包括匹配的令牌预算、无预言注入和仅基于验证器的评分。数据集基于 claude-sonnet-4-6 模型,包含199个运行单元,总LLM成本为$0.00。数据集中包含了详细的防作弊措施、公平评分规则、任务和测试框架的最佳奖励记录,以及跨模型比较。适用于自主研究、模型性能评估和基准测试等场景。数据集规模在1K到10K之间,语言为英语。

The AutoResearch² × autolab.moe Dataset is a real-time experimental tracking dataset for autonomous research, focused on the autolab.moe research puzzle benchmark. This dataset is designed to compare the performance of three distinct test frameworks (default 1-shot, V1 internal-only, and V2 joint environment + strategy) under fair comparison criteria, including matched token budgets, no oracle injection, and validator-only scoring. Built on the claude-sonnet-4-6 model, the dataset contains 199 running units with a total LLM cost of $0.00. It includes detailed anti-cheating measures, fair scoring protocols, optimal reward records for tasks and test frameworks, and cross-model comparisons. The dataset is applicable to scenarios including autonomous research, model performance evaluation, and benchmark testing. It has a scale ranging from 1K to 10K and is in English.
创建时间:
2026-05-02
原始信息汇总

AutoResearch² × autolab.moe 数据集概述

基本信息

  • 数据集名称: AutoResearch² × autolab.moe — Live Experiment Tracker
  • 许可证: MIT
  • 语言: 英语 (en)
  • 数据规模: 1K到10K之间 (1K < n < 10K)
  • 任务类别: 其他 (other)
  • 标签: autoresearch, autolab, benchmark, claude-sonnet-4-6, r2agent

实验背景

该数据集记录了AutoResearch²在autolab.moe研究谜题基准上的实验追踪。AutoResearch²将R²Agent双层设计应用于第二个自主研究领域,比较三种运行框架(默认1-shot、V1仅内部、V2联合环境+策略),在公平比较规则下运行:匹配的令牌预算、无预言机注入、仅基于验证器的评分。

实验配置

  • 主要基础模型: claude-sonnet-4-6
  • 最后更新: 2026-05-02 15:50:20 UTC
  • 总运行单元数: 199
  • 总LLM成本: $0.00

评分结果

公平得分

  • 最终公平得分: 47.03
  • 模型开发平均分: 0.00(5个任务,当前运行0个)
  • 系统优化平均分: 75.54(12个任务)
  • 谜题平均分: 65.55(6个任务)

排行榜对比

| 排名 | 模型 | 最终公平得分 | 模型开发 | 系统 | 谜题 | |---:|---:|---:|---:|---:| | 1 | Claude Opus 4.6 | 95.5 | 99.8 | 89.7 | 96.9 | | 2 | Gemini 3.1 Pro | 85.4 | 77.6 | 96.5 | 82.2 | | 3 | MiMo V2 Pro | 79.1 | 98.8 | 82.3 | 56.2 | | 4 | GLM-5 | 74.7 | 98.6 | 78.3 | 47.2 | | 5 | GPT-5.4 | 71.9 | 99.0 | 70.2 | 46.7 | | 6 | Kimi K2.5 | 70.3 | 100.0 | 81.7 | 29.2 | | 7 | Qwen 3.5 Plus | 67.6 | 100.0 | 72.3 | 30.5 | | 8 | AutoResearch² (claude-sonnet-4-6) | 47.0 | 0.0 | 75.5 | 65.6 |

任务详情

各任务最佳奖励(跨种子和运行框架)

任务 类别 最佳奖励 归一化 运行框架 种子 结果
aes128_ctr system 0.6124 1.000 default 42
bm25_search_go system 0.4288 0.858 default 100
bvh_raytracer system 0.6276 1.000 v1 200
concurrent_kv_wal system 0.4919 0.984 v1 100
fft_rust system 0.5057 1.000 v2 314
flash_attention system 0.3837 0.767 v1 200
gaussian_blur system 0.4138 0.828 v2 200
hash_join system 1.0000 1.000 v1 314
radix_sort system 0.3180 0.636 default 314
regex_engine system 0.1773 0.355 v2 42
sha256_throughput system 0.3188 0.638 v1 314
sstable_compaction_rs system 0.0000 0.000 default 42
discover_sorting puzzle 1.0000 1.000 default 200
fredkin_sort_network puzzle 待定
smallest_game_player puzzle 0.0000 0.000 default 42
stack_machine_golf puzzle 1.0000 1.000 default 314
toy_isa_opt puzzle 0.9333 0.933 v1 42
vliw_scheduler puzzle 1.0000 1.000 v2 42
data_select_ifeval model_dev 待定
grpo_multisource model_dev 待定
llm_online_serving model_dev 待定
multilingual_ocr model_dev 待定
scaling_law model_dev 待定

跨模型对比(V2运行框架)

使用V2(联合环境+策略)运行框架,在17个任务上使用种子=42,不同基础模型的对比结果: | 基础模型 | 单元数 | 公平得分 | 模型开发 | 系统 | 谜题 | |---:|---:|---:|---:|---:| | opus47 | 17 | 40.8 | 0.0 | 56.7 | 65.8 | | gemini-pro | 17 | 37.4 | 0.0 | 55.3 | 56.9 | | gpt-5-4 | 17 | 34.3 | 0.0 | 56.4 | 46.4 | | deepseek-pro | 17 | 23.5 | 0.0 | 37.2 | 33.3 | | haiku45 | 17 | 16.9 | 0.0 | 35.5 | 15.3 | | qwen-flash | 17 | 12.8 | 0.0 | 27.4 | 10.8 | | glm-5-1 | 17 | 0.0 | 0.0 | 0.0 | 0.0 | | kimi-k2-6 | 17 | 0.0 | 0.0 | 0.0 | 0.0 |

数据文件结构

  • cells/<cell_id>/scores.json — 最终奖励、正确性、令牌总数、运行框架、种子、单元ID
  • audit/<cell_id>.jsonl — 仅追加的逐次调用审计记录
  • summary.json — 聚合的公平得分及每个任务的最佳奖励
  • fair_score.json — 与summary.json相同内容,按排行榜规则文档命名
  • harness_breakdown.json — 每个(运行框架,任务)的最佳奖励
搜集汇总
数据集介绍
main_image_url
构建方式
在自主科学研究的前沿领域,R²Agent双层架构被创新性地应用于autolab.moe研究谜题基准测试中,据此构建了exp-05-02数据集。该数据集通过三种对比实验框架(默认单样本基线、V1内环仅含奖励反馈的R²Agent、V2联合环境与策略演化的R²Agent)进行系统化采集。在公平比较规则约束下,所有实验均采用匹配的令牌预算、无神谕注入机制,并仅依赖验证器评分。每个实验单元独立运行,生成包含时间戳、模型响应标识、提示内容与响应哈希值及令牌消耗的详细审计日志,确保了数据采集过程的可追溯性与完整性。
特点
该数据集展现出显著的结构化与可比性特征。其涵盖系统优化、谜题求解与模型开发三大类别共22项任务,每项任务均记录三种框架下的最优奖励值及相对默认基线的增量变化,揭示了不同策略在各类任务中的差异化效能。跨模型对比部分囊括了从高性能到基线水平的多种基础模型,为评估R²Agent架构的通用性提供了丰富视角。数据集还包含详细的赛马场比较表,将实验模型与当前顶尖模型在同一评估公式下进行量化对比,全面映射了方法在真实基准中的定位。
使用方法
研究人员可通过克隆r2agent仓库并切换到指定分支来复现该数据集。运行sprint_runner模块时指定实验框架集合、随机种子、并行工作线程数量及验证超时参数,即可自动化执行全部实验流程。每个实验单元的输出结果结构化存储在scores.json、audit目录下的JSONL审计文件及原始日志文件中。汇总文件包括summary.json(聚合公平分数与任务最优奖励)、fair_score.json及harness_breakdown.json,便于进行跨框架、跨模型的深入分析与比较。复现命令已完全封装,支持高度参数化的批量实验执行。
背景与挑战
背景概述
AutoResearch² × autolab.moe (live) 数据集(exp-05-02)由 Anthropic 研究团队于 2026 年 5 月创建,旨在评估 R²Agent 双层级设计在 autolab.moe 研究谜题基准上的自主研究能力。该数据集通过比较三种策略框架(默认单次提示、V1 内部优化、V2 联合环境与策略进化),在公平比较规则下(匹配 Token 预算、无预言机注入、仅基于验证器评分)量化语言模型的系统优化与谜题解决表现。作为 AutoResearch² 项目的关键组成部分,这一持续更新的直播实验追踪器不仅为自主智能体研究提供了标准化评估平台,还通过细粒度审计日志和反作弊机制确保了研究结果的可复现性与可信度,在推动自动化科学研究范式的发展中具有重要影响力。
当前挑战
该数据集所应对的领域核心挑战在于自主研究智能体的公平评估与防作弊机制设计,需在无人类干预条件下确保模型不泄露 oracle 解决方案,通过 per-cell 审计日志(含时间戳、模型响应哈希值及 Token 消耗)实现透明追踪。构建过程中遭遇的挑战包括:跨模型(Claude、Gemini、GPT、Qwen 等)的公平评分规则制定,需平衡不同规模模型的 Token 预算差异;复杂任务类型(系统优化、谜题推理、模型开发)的验证器鲁棒性问题,例如 sstable_compaction_rs 与 smallest_game_player 出现零分任务;以及多轮内外循环优化(V2 架构中 3 外层×3 内层策略文件进化)带来的计算成本与收敛稳定性矛盾。
常用场景
经典使用场景
数据集exp-05-02是AutoResearch²项目在autolab.moe研究谜题基准上的实时实验追踪记录,其核心价值在于评估和比较自主科研智能体在多样化系统优化与创意谜题求解任务中的表现。研究者常利用该数据集对三种不同的智能体架构(默认1-shot基线、R²Agent内循环版本、以及联合环境与策略的双层优化版本)进行公平对比实验,通过预设的token预算、无验证器泄露的防作弊机制以及基于验证器的评分体系,深入分析不同层级策略在具体任务上的性能差异。该数据集覆盖了aes128_ctr加密、放射线追踪、fft_rust等12项系统优化任务,以及discover_sorting、stack_machine_golf等6项谜题求解任务,为探索自主研究智能体的能力边界提供了标准化的实验平台。
衍生相关工作
围绕exp-05-02数据集,一系列开创性的研究路径已然铺展。数据集所依托的R²Agent双层架构直接衍生出关于"策略演化"与"环境交互"协作模式的理论分析工作,学界正尝试将这一框架泛化至机器人控制、生物序列设计等更广泛的科学研究领域。基于该数据集中跨模型对比发现的不同基座模型在System和Puzzle类别上的能力差异图谱,研究者提出了一系列关于基座模型复杂度与自主研究能力之间关系的假说,催生了针对小型模型知识蒸馏和高效适配策略的专项研究。此外,数据集中详尽的per-cell审计记录为构建智能体的可解释性分析工具提供了数据基础,已有工作尝试从中提炼关于动作偏好、探索模式与最终性能之间关联的因果性洞察,进一步推动了自主科研智能体从黑箱操作向透明可审计方向的演进。
数据集最近研究
最新研究方向
当前,以AutoResearch²为代表的自主科研范式正将R²Agent双层优化框架拓展至autolab.moe研究谜题基准测试,标志着自动化科学发现从单一领域向多领域泛化的重要跃迁。该数据集聚焦于三种策略配置(默认单样本、V1纯内环、V2联合环境与策略)在严格公平规则下的系统性比较,通过匹配令牌预算、禁止先知注入、仅依赖验证器打分等机制,构建了可复现的评估生态。前沿研究热点在于剖析内环奖励反馈与外环策略演化如何协同提升零样本推理能力,尤其在系统优化任务中V2策略展现出显著增益,如并发键值日志写入与正则表达式引擎分别获得0.443和0.177的绝对提升,揭示了分层强化学习在复杂工程问题中的潜力。然而,模型开发者任务上的零分记录与跨基座模型性能的剧烈分化(Opus 47以40.8分居首而GLM-5与Kimi K2.6得分为零)警示着当前范式在知识密集型评估上的脆弱性,推动社区探索更鲁棒的元学习表征与跨模型迁移机制。这一成果不仅为自动机器学习社区提供了首个端到端透明的双层科研代理基准,更对构建可信任的自主实验室具有里程碑意义,其反作弊审计日志设计与开源复现路径为后续研究奠定了实践基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作