five

AgPerry/exp-05-02

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/AgPerry/exp-05-02
下载链接
链接失效反馈
官方服务:
资源简介:
AutoResearch² × autolab.moe — 实时实验追踪器是一个用于记录和比较AutoResearch²项目在autolab.moe研究谜题基准上应用结果的数据集。该项目采用R²Agent双层设计,比较了三种测试方法(默认1-shot、V1仅内部和V2联合环境+策略)在公平比较规则下的表现,包括匹配的token预算、无oracle注入和仅基于验证器的评分。数据集包含详细的实验结果,如排行榜比较、每任务最佳奖励、每测试方法最佳奖励和跨模型比较等,并提供了完整的防作弊措施和实验复现方法。

AutoResearch² × autolab.moe — Live Experiment Tracker is a dataset that records and compares the application results of the AutoResearch² project on the autolab.moe research-puzzle benchmark. The project applies the R²Agent bilevel design to compare three harnesses (default 1-shot, V1 inner-only, V2 joint env+strategy) under fair-comparison rules: matched token budgets, no oracle injection, and verifier-based scoring only. The dataset includes detailed experimental results such as leaderboard comparisons, per-task best rewards, per-harness best rewards, and cross-model comparisons, along with comprehensive anti-cheat measures and reproduction methods.
提供机构:
AgPerry
搜集汇总
数据集介绍
main_image_url
构建方式
AutoResearch² 数据集依托于 R²Agent 双层设计框架,在 autolab.moe 研究谜题基准上构建而成。研究团队采用三种不同的自动化研究工具(harness)进行对比实验:默认的 1-shot 基线方案、仅包含内部循环的 V1 方案,以及联合环境与策略优化的 V2 方案。实验在严格的公平比较规则下执行,包括匹配的令牌预算、禁止注入外部先验知识,并仅依赖验证器返回的奖励分数进行评估。通过跨多个随机种子与任务类型的系统化运行,数据集积累了每轮自动化研究单元(cell)的详细审计日志与评分记录,最终汇总为综合的公平得分(Fair Score)。
特点
该数据集的核心特点在于其多层级的自动化研究追踪能力,覆盖系统优化、谜题求解与模型开发三大类别共 17 项任务。数据集中每项任务均记录最佳奖励值、归一化分数、所使用的工具方案及随机种子,支持细粒度的跨方案对比。尤为突出的是,数据集内嵌了完整的反作弊审计机制,包括每个 LLM 调用的时间戳、模型标识、提示词与响应的哈希校验以及令牌消耗,确保实验结果的可重复性与可信度。此外,数据集提供了基于同一工具方案的不同基础模型间的横向比较,揭示模型能力差异对自动化研究绩效的影响。
使用方法
使用者可通过 GitHub 仓库(anthropic/r2agent)中的指定分支与脚本重现完整实验流程,运行命令支持灵活配置工具方案组合与随机种子范围。每轮实验生成的评分文件、审计日志及原始验证器输出均以结构化格式保存于 .sprint/autolab 目录下,便于后续分析与可视化。数据集还提供了聚合摘要文件(summary.json、fair_score.json、harness_breakdown.json),方便研究者直接提取公平得分、各任务最佳奖励及方案级性能分解,从而快速评估不同自动化研究策略的优劣。
背景与挑战
背景概述
在人工智能研究的浪潮中,自主科研系统(autonomous research system)正逐步成为推动算法创新的关键力量。exp-05-02数据集诞生于2026年5月,由Anthropic研究机构依托R²Agent框架与autolab.moe基准测试平台联合创建。该数据集聚焦于评估大语言模型在独立科研场景下的多层级决策能力,核心研究问题在于探究不同策略架构(默认单次、V1内层优化、V2联合环境与策略优化)对模型求解复杂谜题与系统优化任务的性能影响。通过引入验证器打分、防作弊日志与公平比较规则,该数据集为衡量LLM的自主科研效能提供了标准化实验范本,对推动AutoResearch领域的方法论发展具有标杆意义。
当前挑战
本研究面临的核心挑战包括:第一,需解决模型开发(Model Dev)、系统优化(System Opt)与谜题求解(Puzzle)三类异构任务在同一评价框架下的公平可比性问题,确保不同能力维度的评估标准统一且可量化。第二,构建过程中面临防作弊机制与实验复现性的双重困境,需杜绝预言式解决方案(oracle solutions)泄露至提示词中,同时通过细粒度审计日志(每单元记录时间戳、模型ID、响应哈希与令牌数)保证实验的可追溯性。第三,双层级优化架构的设计挑战在于如何协调内层策略探索与外层环境交互的令牌预算分配,避免陷入局部最优或策略退化,从而在限定资源下获取稳健的奖励信号。
常用场景
经典使用场景
在自主科研智能体评估领域,AutoResearch² × autolab.moe 基准测试数据集为衡量大语言模型驱动的自动化研究系统提供了标准化竞技场。该数据集以autolab.moe平台上的研究型谜题为核心,涵盖系统优化、模型开发与谜题求解三大类别共23项任务,从加密算法实现到编译器调度优化,从排序网络设计到自注意力机制加速,构建起多维度的能力考核体系。其经典使用方式在于对比不同智能体框架——默认单次基线、内循环策略V1与联合环境-策略双循环V2——在公平计分规则下的表现,为学界提供可复现的自动化研究能力量化标杆。
实际应用
在实际应用层面,该数据集可服务于大模型研究机构对自主智能体系统的能力诊断与迭代优化。研发团队可借助该基准评估自家智能体在算法实现、系统调优与组合创新等多方面的表现,识别性能短板。数据集提供的跨模型对比结果,为不同规模、不同架构的大语言模型选择提供了参考依据,辅助企业在部署自动化科研助手时做出更明智的模型选型决策。此外,其细粒度的任务奖励分布与框架消融实验日志,也为智能体架构设计中的算法改进提供了实证指导。
衍生相关工作
围绕该数据集已衍生出数项具有里程碑意义的研究工作,首当其冲的是R²Agent双层架构的提出,其内循环策略V1与联合环境-策略双循环V2设计成为后续智能体框架改进的基石。在此基础上,研究者们进一步探索了基于奖励反馈的迭代策略优化机制、防作弊审计协议,以及多层次公平计分规则,这些方法已被广泛应用于后续的自主科研系统评估中。数据集所揭示的不同模型在系统优化与谜题求解任务上的能力差异,也催生了一系列针对特定能力维度进行专家知识嵌入的混合智能体工作,推动了自动化研究生态的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作