AutoResearchBench

github2026-04-24 更新2026-04-25 收录

下载链接：

https://github.com/CherYou/AutoResearchBench

下载链接

链接失效反馈

官方服务：

资源简介：

AutoResearchBench是一个专门用于自主科学文献发现的基准测试，包含两种互补的任务类型：深度研究（Deep Research）和广度研究（Wide Research）。深度研究需要通过多步渐进式探测过程追踪特定目标论文；广度研究则需要全面收集满足给定条件的一组论文。该基准测试在研究导向、文献聚焦和开放性方面具有独特优势，适合评估自主研究能力，且极具挑战性。

AutoResearchBench is a benchmark specifically designed for autonomous scientific literature discovery, encompassing two complementary task categories: Deep Research and Wide Research. Deep Research entails tracking a designated target paper via a multi-step progressive probing process, while Wide Research demands the comprehensive compilation of a set of papers that meet the specified criteria. This benchmark possesses distinct advantages in terms of research orientation, literature focus and openness, making it well-suited for evaluating autonomous research capabilities and highly challenging.

创建时间：

2026-04-01

原始信息汇总

数据集概述：AutoResearchBench

AutoResearchBench 是一个专为评估AI智能体在自主科学文献发现能力而设计的基准测试数据集。该数据集由Hugging Face平台托管，并与配套的推理与评估代码一同发布。

核心任务类型

该基准包含两类互补任务，用于全面衡量AI的文献检索能力：

深度研究（Deep Research）：要求智能体通过渐进式、多步骤的探究过程，定位一篇特定的目标论文。
广度研究（Wide Research）：要求智能体全面收集满足给定条件的一组论文，涉及对未知数量的合格论文进行搜索与推理。

数据集特点

与以往的智能体网页浏览基准相比，AutoResearchBench具有以下独特之处：

研究导向：要求对科学概念进行深入理解。
文献聚焦：需要对文献中的详细信息进行细粒度利用。
开放性：涉及未知数量的合格论文，需要在整个搜索过程中进行审慎的推理与探索，极具挑战性。

性能表现

当前最强的大语言模型在该基准上表现有限，凸显了任务的难度：

深度研究准确率：最高仅为 9.39%。
广度研究IoU：最高仅为 9.31%。
许多其他强基线模型的得分则低于 5%。

数据获取与使用

数据托管地址：https://huggingface.co/datasets/Lk123/AutoResearchBench
访问方式：数据以混淆包（AutoResearchBench.jsonl.obf.json）的形式发行，下载后需使用仓库提供的解密脚本（decrypt_benchmark.py）进行本地解密，得到明文JSONL文件后用于推理。
推理流程：配置环境变量后，通过 run_inference.sh 脚本执行批量推理。
评估流程：使用 evaluate/ 目录下的脚本对深度搜索和广度搜索分别进行评估。

搜集汇总

数据集介绍

构建方式

AutoResearchBench的构建围绕两大互补任务展开，分别为深度研究与广度研究。深度研究任务要求AI代理通过渐进式、多步骤的探查过程，精确定位某一特定目标论文；广度研究任务则聚焦于全面收集满足给定条件的一组论文。数据集的构造流程采用了顶层设计概览，确保了任务结构的高效与系统性，并已公开其构造管线的矢量示意图，便于解析与复现。

使用方法

使用AutoResearchBench时，研究人员需首先安装依赖，并配置环境文件以设定模型名称、API密钥及基础端点等信息。随后可运行批处理推理脚本，并针对深度与广度两种研究类型调用对应的评估脚本进行性能衡量。数据集需从Hugging Face仓库下载混淆包，并利用提供的解密脚本还原为可用的JSONL格式，最终以此作为推理的输入数据。

背景与挑战

背景概述

AutoResearchBench诞生于人工智能自主科学研究蓬勃发展的浪潮之中，由研究团队于近期推出，旨在评估AI智能体在自主科学文献发现领域的核心能力。该基准测试聚焦于两大互补任务：深度研究要求通过渐进式多步探询追踪特定目标论文，广度研究则需全面收集满足给定条件的论文集合。作为首个专注于科学文献自主发现的专项基准，AutoResearchBench以研究为导向、以文献为中心、且具有开放性，能够深刻洞察AI对科学概念的理解深度与信息检索的细腻程度，对推动自主科研能力的发展具有里程碑式的意义。

当前挑战

AutoResearchBench所解决的领域挑战在于，以往AI智能体虽在通用网络浏览评测中表现优异，却难以胜任对科学概念深度理解、文献细节精准运用以及未知数量合格论文的自主搜寻与推理。这一基准测试对AI提出了极高的认知门槛。在构建过程中，团队需设计出既需多步推理、又需广泛检索的复杂任务体系，以确保任务真实反映科学研究中文献探索的复杂性；同时，还需精心构建可解密脱敏的评测数据包，以平衡数据安全与开源共享，并确保评测流程的一致性与可复现性。

常用场景

经典使用场景

AutoResearchBench作为自主科学文献发现的标杆性评测平台，其核心应用场景聚焦于评估人工智能体在科研文献检索与知识挖掘中的综合能力。该数据集巧妙设计了深度研究与广泛研究两大互补性任务：深度研究要求智能体通过渐进式、多轮交互的探查过程，精准定位某一特定目标论文；广泛研究则需智能体全面收集满足给定条件的论文集合。这一设计使得AutoResearchBench成为检验大语言模型在跨学科文献追踪、科研概念理解与复杂检索策略执行上的黄金标准。

解决学术问题

该数据集直面当前AI智能体在自主科研进程中的关键瓶颈——如何高效、精准地发现并整合相关科学文献。以往通用的网页浏览评测基准难以适应科研场景对概念深度、文献细节精细度及开放性检索的要求。AutoResearchBench通过提出研究导向、文献聚焦、开放探索三大评测维度，系统性地量化了模型在科学理解、推理与检索上的薄弱环节，揭示了即便是最先进的模型在该基准上准确率尚不足10%的严峻挑战，为推动自主科研能力的实质性突破奠定了方法论框架。

实际应用

在实际应用中，AutoResearchBench为科研机构、学术搜索引擎开发者和AI助手团队提供了不可或缺的评估工具。研究者可借助该数据集检验智能体在综述撰写、系统评价和前沿文献监测中的表现，优化文献推荐系统的召回率与精准度。同时，该基准支持多个检索后端（如DeepXiv学术检索与通用网络检索）的灵活配置，便于不同技术路线的横向对比，助力产学研各方加速开发具备深度科研协作能力的下一代AI工具。

数据集最近研究