AutoScholarQuery, RealScholarQuery

Name: AutoScholarQuery, RealScholarQuery
Creator: 字节跳动研究院, 北京大学
Published: 2025-01-17 19:12:28
License: 暂无描述

arXiv2025-01-17 更新2025-01-21 收录

下载链接：

https://github.com/bytedance/pasa

下载链接

链接失效反馈

官方服务：

资源简介：

AutoScholarQuery是由字节跳动研究院创建的高质量合成数据集，专为AI领域的学术搜索任务设计。该数据集包含35,511条细粒度学术查询及其对应的论文，数据来源于ICLR、ICML、NeurIPS、ACL和CVPR等顶级AI会议的论文。数据集通过GPT-4生成学术查询，并仅保留可在arXiv上检索到的论文。AutoScholarQuery旨在通过强化学习优化PaSa模型，提升其在复杂学术查询中的表现。RealScholarQuery则是一个包含50条真实世界学术查询的基准数据集，用于评估PaSa在现实场景中的性能。该数据集通过人工收集和标注相关论文，确保查询与论文的相关性。两个数据集的应用领域主要集中在学术文献检索，旨在解决复杂学术查询的自动化处理问题。

AutoScholarQuery is a high-quality synthetic dataset developed by ByteDance Research, specifically designed for academic search tasks in the AI field. This dataset comprises 35,511 fine-grained academic queries and their corresponding papers, sourced from top-tier AI conference proceedings including ICLR, ICML, NeurIPS, ACL, and CVPR. The academic queries are generated via GPT-4, and only papers retrievable on arXiv are retained in the dataset. AutoScholarQuery is intended to optimize the PaSa model through reinforcement learning, thereby enhancing its performance on complex academic search queries. RealScholarQuery, on the other hand, is a benchmark dataset containing 50 real-world academic queries, used to evaluate the performance of PaSa in real-world scenarios. Relevant papers for this dataset are manually collected and annotated to ensure the relevance between each query and its matched papers. The application scope of both datasets primarily centers on academic literature retrieval, with the goal of addressing challenges in the automated processing of complex academic queries.

提供机构：

字节跳动研究院, 北京大学

创建时间：

2025-01-17

搜集汇总

数据集介绍

构建方式

AutoScholarQuery和RealScholarQuery数据集的构建过程体现了对学术搜索领域的高度关注。AutoScholarQuery通过从顶级AI会议（如ICLR、ICML、NeurIPS等）的论文中提取相关工作的引用部分，利用GPT-4生成细粒度的学术查询，并将这些查询与arXiv上的论文进行匹配，最终形成包含33,551个训练样本、1,000个开发样本和1,000个测试样本的数据集。RealScholarQuery则通过邀请AI研究人员提供真实查询，并手动筛选和标注相关论文，构建了一个包含50个真实查询的基准数据集。

使用方法

AutoScholarQuery和RealScholarQuery数据集主要用于训练和评估学术搜索系统，如PaSa。AutoScholarQuery通过强化学习框架AGILE进行训练，帮助模型学习如何从复杂的学术查询中检索相关论文。RealScholarQuery则用于评估模型在真实场景中的表现，通过与Google、Google Scholar等基线系统的对比，验证模型的检索效果。此外，数据集还可用于研究学术搜索中的查询扩展、论文排序等技术，推动学术信息检索领域的发展。

背景与挑战

背景概述

AutoScholarQuery和RealScholarQuery数据集由字节跳动研究院和北京大学的研究团队于2024年提出，旨在支持复杂学术查询的自动化文献检索。AutoScholarQuery是一个合成数据集，包含35,000条细粒度的学术查询及其对应的论文，数据来源于顶级AI会议（如ICLR、ICML、NeurIPS等）的论文引用部分。RealScholarQuery则是一个真实世界的学术查询基准，包含50条真实查询及其标注的相关论文。这些数据集的创建是为了训练和评估PaSa（Paper Search Agent），一个基于大语言模型的自动化文献检索系统。PaSa通过强化学习优化，能够在复杂的学术查询中自主决策，调用搜索工具、阅读论文并选择相关引用，显著提升了学术文献检索的效率和准确性。

当前挑战

AutoScholarQuery和RealScholarQuery面临的挑战主要集中在两个方面。首先，学术文献检索的复杂性要求系统具备长尾专业知识、全面的文献覆盖能力以及处理细粒度查询的能力。现有的通用学术搜索引擎（如Google Scholar）在处理复杂查询时表现不佳，导致研究人员花费大量时间进行文献综述。其次，数据集的构建过程中也面临诸多挑战。AutoScholarQuery虽然通过合成数据生成，但其仅包含部分引用文献，导致训练过程中奖励稀疏，且搜索轨迹可能涉及数百篇论文，增加了模型训练的复杂性。RealScholarQuery的构建则需要人工标注，成本高昂且耗时。这些挑战促使研究团队开发了新的强化学习方法和会话级PPO算法，以优化PaSa的性能。

常用场景

经典使用场景

AutoScholarQuery和RealScholarQuery数据集主要用于训练和评估基于大语言模型的学术论文搜索代理PaSa。AutoScholarQuery通过从顶级AI会议的论文中提取细粒度的学术查询和相关论文，构建了一个高质量的合成数据集，用于强化学习训练。RealScholarQuery则收集了真实世界的学术查询，用于评估PaSa在实际场景中的表现。这些数据集的使用场景主要集中在学术文献检索、复杂查询处理以及自动化文献综述生成等领域。

解决学术问题

AutoScholarQuery和RealScholarQuery数据集解决了学术研究中复杂查询处理的难题。传统的学术搜索引擎如Google Scholar在处理细粒度、长尾的学术查询时往往表现不佳，导致研究人员花费大量时间进行文献综述。通过提供高质量的查询-论文对，这些数据集帮助训练了PaSa代理，使其能够自主调用搜索工具、阅读论文并选择相关引用，从而显著提升了复杂学术查询的检索效率和准确性。

实际应用

在实际应用中，AutoScholarQuery和RealScholarQuery数据集被广泛应用于学术文献检索系统的开发与优化。PaSa代理通过这两个数据集的训练，能够在真实世界的学术搜索场景中表现出色，帮助研究人员快速找到与其研究主题高度相关的文献。此外，这些数据集还可用于开发自动化文献综述工具，减少研究人员在文献调研中的时间成本，提升科研效率。

数据集最近研究