SAGE

Name: SAGE
Creator: 纽约大学上海分校; 耶鲁大学; 纽约大学·数据科学中心
Published: 2026-02-06 02:25:24
License: 暂无描述

arXiv2026-02-06 更新2026-02-08 收录

下载链接：

https://github.com/HughieHu/Sage

下载链接

链接失效反馈

官方服务：

资源简介：

SAGE是由纽约大学上海分校和耶鲁大学等机构联合构建的科学文献检索基准测试，涵盖计算机科学、自然科学、医疗健康和人文科学四大领域。该数据集包含1,200个复杂查询和200,000篇最新研究论文构成的检索语料库，其中查询分为需要深度推理的简答型和开放式研究任务型两类。数据集通过提取论文元数据、图表信息和文献引用关系构建，特别采用2020年后发表的论文确保时效性。SAGE旨在评估深度研究代理在科学发现流程中的检索性能，为解决复杂科研问题中的文献检索挑战提供基准平台。

提供机构：

纽约大学上海分校; 耶鲁大学; 纽约大学·数据科学中心

创建时间：

2026-02-06

原始信息汇总

SAGE数据集概述

数据集简介

SAGE是一个用于科学文献检索的基准测试数据集。

数据集结构

数据集包含以下四个主要部分：

1. 开放式数据库 (SAGE_open-ended_DB)

包含四个学科领域的文本文件，每个文件有50,000条条目。
学科领域：计算机科学、医疗保健、人文科学、自然科学。
文件格式：.txt。

2. 开放式问题集 (SAGE_open-ended_questions)

包含四个学科领域的问题文件，每个文件有150个问题。
学科领域：计算机科学、医疗保健、人文科学、自然科学。
文件格式：.json，内含真实答案。

3. 简短形式数据库 (SAGE_short-form_DB)

包含四个学科领域的文本文件，每个文件有50,000条条目。
学科领域：计算机科学、医疗保健、人文科学、自然科学。
文件格式：.txt。

4. 简短形式问题集 (SAGE_short-form_questions)

包含四个学科领域的问题文件，每个文件有150个问题。
学科领域：计算机科学、医疗保健、人文科学、自然科学。
文件格式：.json，内含真实答案。

真实答案格式说明

开放式问题

ground_truth字段包含两个列表：
- most_relevant：最相关论文列表。
- relevant：相关论文列表。

简短形式问题

ground_truth字段是一个代表目标论文标题的字符串。

搜集汇总

数据集介绍

构建方式

在科学文献检索领域，为系统评估深度研究智能体的检索行为，SAGE数据集构建了一个包含四个科学领域的可控语料库。该数据集精心设计了1200个查询，涵盖计算机科学、自然科学、医疗保健和人文学科，每个领域对应一个约5万篇最新学术论文的语料库。构建过程首先从各领域顶级会议中选取种子论文，并基于引用重叠关系确定相关论文对，进而利用大型语言模型从论文元数据、图表细节及论文间关系三个维度生成需要深度推理的查询。对于开放式问题，则模拟真实研究场景，通过分析论文对的共享引用关系来构建具有多个相关答案的查询，确保了数据集的现实意义与评估深度。

特点

SAGE数据集的核心特点在于其专注于评估深度研究智能体在复杂、需要推理的文献检索任务中的表现。它创新性地结合了两种互补的查询类型：具有唯一可验证答案的短形式问题，这类问题要求智能体综合多篇论文的分散信息进行深度推理；以及模拟真实文献综述场景的开放式问题，这类问题允许多个相关答案，更贴近研究人员的实际需求。数据集覆盖四个关键科学领域，并确保语料库由2020年后的最新论文构成，有效避免了模型预训练知识对评估结果的干扰，为研究智能体与检索器的协同工作提供了精准、动态的测试环境。

使用方法

使用SAGE数据集进行评估时，通常遵循深度研究智能体的标准工作流程。智能体接收一个复杂查询后，会自主进行多步推理，将原问题分解为一系列基于关键词的子查询。这些子查询随后被提交给检索系统，在固定的论文语料库中进行搜索，获取相关文献的标题与摘要作为证据。智能体综合多轮检索积累的证据，最终生成附带引用的答案。研究者可通过替换智能体底层的检索工具（如对比BM25与基于大语言模型的检索器），来探究不同检索范式与智能体工作流的兼容性。数据集的评估指标包括针对短形式问题的精确匹配率，以及针对开放式问题的加权召回率，从而全面衡量系统的检索精度与覆盖广度。

背景与挑战

背景概述

SAGE（Scientific AGentic retrieval Evaluation）数据集由纽约大学上海分校、耶鲁大学等机构的研究团队于2026年提出，旨在系统评估深度研究智能体在科学文献检索任务中的表现。该数据集的核心研究问题是探究基于大语言模型的检索器能否有效融入深度研究智能体的工作流程，从而提升复杂查询的处理能力。SAGE包含涵盖计算机科学、自然科学、医疗健康和人文社科四大领域的1200个查询，并构建了20万篇学术论文的检索语料库，其创新性在于将短形式推理问题与开放式研究任务相结合，为智能体检索系统的评估提供了标准化、可控的实验环境，对推动自主研究系统的发展具有重要影响力。

当前挑战

SAGE数据集所针对的领域问题是深度研究智能体在科学文献检索中面临的推理密集型查询挑战，即智能体需要综合多篇论文的元数据、图表细节及文献间引用关系才能准确作答。在构建过程中，研究团队面临的主要挑战包括：如何设计同时涵盖精确答案验证与开放式探索的查询类型；如何确保语料库论文的时效性以避免大语言模型已有知识的干扰；以及如何从大量PDF文献中自动化提取结构化信息并建立可靠的文献关联网络。此外，数据集的评估需平衡检索精度与覆盖广度，这对设计兼顾短形式问题精确匹配和开放式问题加权召回的评价指标提出了较高要求。

常用场景

经典使用场景

在科学文献检索领域，SAGE数据集为深度研究智能体的检索能力评估提供了标准化测试平台。该数据集包含1200个跨计算机科学、自然科学、医疗健康和人文科学四大领域的复杂查询，并构建了20万篇学术论文的检索语料库。研究者通过该数据集能够系统评估智能体在需要跨文档推理、元数据整合及文献关联分析等复杂场景下的检索效能，尤其擅长检验智能体对关键词导向查询与语义理解检索的协同能力。

实际应用

在实际科研工作流程中，SAGE数据集为构建智能文献调研系统提供了关键支撑。研究人员可利用该数据集训练和评估能够理解复杂研究问题、自动分解查询、并精准定位相关文献的智能辅助系统。例如在开展文献综述时，系统能根据研究背景自动检索具有特定方法论关联、引用关系或图表特征的学术论文，显著提升科研信息获取的深度与效率。

衍生相关工作

基于SAGE数据集的研究催生了多项重要衍生工作，其中最具代表性的是语料级测试时扩展框架。该框架利用大语言模型为论文自动添加元数据和关键词标签，使传统检索器能更有效地处理推理密集型查询，在短式问题上实现了8%的性能提升。此外，该数据集还促进了检索器感知的智能体训练、动态查询重构算法以及跨域科学文献检索基准等研究方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集