AstaBench
收藏arXiv2025-10-25 更新2025-10-29 收录
下载链接:
https://github.com/allenai/asta-bench
下载链接
链接失效反馈官方服务:
资源简介:
AstaBench是一个用于全面评估AI代理进行科学研究的基准测试套件。它包含2400多个问题,涵盖了整个科学发现过程和多个科学领域,包括许多基于实际用户请求的问题。该套件还提供了首个具有生产级搜索工具的科学研究环境,这些工具可以用于检索大型科学文献语料库中的信息,从而实现可控、可复制的评估。此外,AstaBench还包括九种针对科学研究任务优化的Asta代理类别和众多基线代理。
AstaBench is a benchmark suite designed for the comprehensive evaluation of AI Agents conducting scientific research. It contains over 2,400 questions covering the entire scientific discovery workflow and multiple scientific disciplines, with many questions derived from real-world user requests. Furthermore, this suite offers the first scientific research environment integrated with production-grade search tools, which enable retrieval of information from large-scale scientific literature corpora to facilitate controllable and reproducible evaluations. Additionally, AstaBench encompasses nine categories of Asta agents optimized for scientific research tasks, alongside numerous baseline agents.
提供机构:
艾伦人工智能研究所
创建时间:
2025-10-25
原始信息汇总
AstaBench数据集概述
数据集基本信息
- 数据集名称: AstaBench
- 主要功能: 评估AI代理科学研究能力的评估框架
- 数据规模: 超过2,400个示例
- 基准数量: 11个基准测试
核心特性
- 测试完整的研究技能谱系:从文献搜索、代码执行到数据分析和端到端发现
- 提供标准化工具和执行环境
- 支持性能和计算效率的公平比较
技术架构
- 基础框架: 基于InspectAI框架构建
- 扩展性: 提供灵活可扩展的AI系统评估框架
环境要求
- 内存需求: 评估框架本身最多使用10GB内存
- 特定任务需求: 编码任务(特别是SUPER和E2E)可能需要20-30GB内存
- 推荐配置: 128GB内存和8物理CPU核心(16 vCPU)
评估任务类型
- 文献搜索任务
- 编码任务
- 数据分析任务
- 端到端发现任务
工具支持
- 标准化搜索工具(带日期和语料库限制)
- 沙盒代码执行环境
- Python会话工具(类似Jupyter笔记本)
- 成本记录功能
提交要求
- 代理名称: 描述性名称
- 代理描述: 简要说明
- 开放性分类: 开源开放权重/开源闭源权重/闭源API可用/闭源仅UI
- 工具使用分类: 标准/自定义接口/自定义
相关资源
- 论文链接: https://allenai.org/papers/astabench
- 数据集地址: https://huggingface.co/datasets/allenai/asta-bench
- 排行榜: https://huggingface.co/spaces/allenai/asta-bench-internal-leaderboard
搜集汇总
数据集介绍

构建方式
AstaBench作为首个面向科学研究的综合性智能体基准套件,其构建过程严格遵循可复现性与系统性原则。该数据集通过整合11个涵盖文献理解、代码执行、数据分析及端到端发现等四大任务类别的基准测试,构建了包含2400余个问题的评估体系。其核心创新在于配套提供了首个具备生产级检索工具的科学研究环境——Asta环境,通过时间截断机制确保评估结果不受新发表论文的污染。数据来源融合了真实用户查询与现有科学数据集,并经过多轮人工校验与自动化过滤,保证了任务场景的实用性与评估指标的鲁棒性。
特点
AstaBench的突出特点体现在其多维度的评估体系与严格的变量控制机制。该数据集首次实现了对科学发现全流程的覆盖,从文献检索到假设生成再到实验验证,构建了完整的评估链条。其独特优势在于提供了标准化的工具接口与可复现的检索环境,有效隔离了智能体核心能力与信息获取途径的干扰。通过集成时间不变的成本计算框架,该数据集能精准量化计算开销与性能表现的权衡关系。此外,其包含的22类智能体架构与57个具体实例,为学术界提供了迄今为止最全面的基线参照系统。
使用方法
研究者可通过AstaBench提供的标准化接口快速集成新型智能体进行评估。使用流程始于环境配置阶段,需通过Asta环境加载包含日期限制的科学文献语料库与计算沙箱。评估阶段支持两种模式:对于通用智能体可直接调用标准工具集执行任务,对于专用智能体则允许通过定制接口接入等效环境。结果提交需遵循统一的JSON格式规范,系统将自动生成包含准确率、计算成本与工具使用情况的综合评估报告。所有实验数据可通过AstaBench排行榜进行横向对比,该平台采用基于HuggingFace的身份验证机制确保提交过程的透明性与安全性。
背景与挑战
背景概述
AstaBench由艾伦人工智能研究所于2025年推出,是首个面向科学研究的综合性智能体基准测试套件。该数据集针对当前AI智能体在科学研究自动化中的评估缺陷,构建了覆盖文献理解、代码执行、数据分析和端到端发现四大任务类别的2400余个问题,并整合了真实用户请求数据。其核心研究问题在于如何系统评估智能体在复杂科研流程中的综合能力,通过提供标准化工具环境和可复现的评估框架,显著提升了科学AI领域的评测严谨性与可比性。
当前挑战
AstaBench需解决科学智能体在多领域任务中的泛化能力挑战,包括对长文本理解、代码生成与实验复现、数据驱动发现等复杂能力的综合评测。构建过程中面临三大挑战:一是创建真实可控的科研环境,需开发生产级文献检索工具并确保时间截断的复现性;二是消除混淆变量影响,需设计统一接口支持通用智能体集成,并建立包含计算成本的标准化评分体系;三是构建全面基线系统,需开发九类科学优化智能体架构以提供可靠的性能参照基准。
常用场景
经典使用场景
在人工智能代理的评估领域,AstaBench作为首个综合性科学研究基准套件,通过涵盖文献理解、代码执行、数据分析和端到端发现四大任务类别的2400余个问题,系统性地评估智能代理在完整科研流程中的表现。该数据集通过标准化工具环境和生产级检索工具,实现了对智能代理文献检索能力、实验复现能力以及跨学科推理能力的多维度测评,为比较不同架构的智能代理提供了统一平台。
衍生相关工作
该数据集催生了系列创新性研究,其中Asta Paper Finder通过混合检索与LLM判据机制显著提升了学术文献检索精度。Asta Scholar QA在长式科学问答任务中引入多维度评估框架,推动了学术问答系统的可解释性发展。集成复杂推理链的Asta Panda代理和基于遗传搜索的Asta CodeScientist,分别开辟了端到端科研自动化新路径。这些衍生工作通过AstaBench的标准化评估,共同构成了智能科研代理的方法论体系。
数据集最近研究
最新研究方向
AstaBench作为首个综合性科学智能体基准测试套件,聚焦于评估AI代理在完整科研流程中的能力,涵盖文献理解、代码执行、数据分析及端到端发现等关键环节。当前研究前沿集中于构建可复现的标准化工具环境,以控制变量方式比较不同代理架构的性能,同时引入成本感知的评估机制以应对计算资源消耗问题。热点事件包括多领域科学任务的集成测试,如基于真实用户查询的论文检索、实验复现及假设生成等挑战性场景,显著推动了科学AI代理的实用化进程。该基准通过提供生产级检索工具与九类优化代理基线,为科学自动化研究设立了严谨的评估范式,对促进可解释、低成本的科研辅助系统发展具有里程碑意义。
相关研究论文
- 1AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite艾伦人工智能研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



