AutoScholarQuery, RealScholarQuery

github2025-01-20 更新2025-01-21 收录

下载链接：

https://github.com/bytedance/pasa

下载链接

链接失效反馈

官方服务：

资源简介：

AutoScholarQuery是一个合成的但高质量的学术查询和相关论文数据集，专门为AI领域定制。RealScholarQuery是一个测试数据集，包含50个由AI研究人员提出的真实世界和细粒度的研究查询，每个查询的答案由专业注释者通过各种检索方法尽可能全面地识别。

AutoScholarQuery is a synthetic yet high-quality academic query and related paper dataset, specifically tailored for the AI field. RealScholarQuery is a test dataset containing 50 real-world and fine-grained research queries proposed by AI researchers, with the answer to each query identified as comprehensively as possible by professional annotators through various retrieval methods.

创建时间：

2024-12-23

原始信息汇总

数据集概述

数据集名称

PaSa 数据集

数据集简介

PaSa 是一个基于大型语言模型的学术论文搜索代理，能够自主进行一系列决策，包括调用搜索工具、阅读论文和选择相关参考文献，以最终获得复杂学术查询的全面且准确的结果。PaSa 使用强化学习进行优化，并使用了合成数据集 AutoScholarQuery 进行训练。此外，还开发了 RealScholarQuery 基准测试集，用于评估 PaSa 在更现实场景中的表现。

数据集内容

AutoScholarQuery

类型: 合成数据集
领域: 人工智能
规模: 35,000 条细粒度的学术查询及其对应的论文
来源: 顶级 AI 会议出版物

RealScholarQuery

类型: 真实世界数据集
领域: 人工智能
规模: 50 条由 AI 研究人员提出的真实世界细粒度研究查询
标注: 由专业标注人员通过各种检索方法尽可能全面地识别每个查询的答案

数据集结构

pasa/data ├── AutoScholarQuery │ ├── dev.jsonl │ ├── test.jsonl │ └── train.jsonl ├── paper_database │ ├── cs_paper_2nd.zip │ └── id2paper.json ├── RealScholarQuery │ └── test.jsonl ├── sft_crawler │ └── train.jsonl └── sft_selector ├── test.jsonl └── train.jsonl

数据集获取

AutoScholarQuery: 包含训练、开发和测试集
RealScholarQuery: 仅包含测试集
数据集下载地址: pasa-dataset

数据集用途

训练: 用于训练 PaSa 代理的 Crawler 和 Selector 模型
评估: 用于评估 PaSa 在合成和真实世界学术查询中的表现

数据集性能

PaSa-7b: 在 AutoScholarQuery 测试集上，PaSa-7b 在召回率和精确率上均优于所有基线模型。在 RealScholarQuery 上，PaSa-7b 在真实世界学术搜索场景中表现出更大的优势。

数据集引用

BibTeX @misc{he2024pasa, title={PaSa: An LLM Agent for Comprehensive Academic Paper Search}, author={Yichen He and Guanhua Huang and Peiyuan Feng and Yuan Lin and Yuchen Zhang and Hang Li and Weinan E}, year={2025}, eprint={2501.10120}, archivePrefix={arXiv}, primaryClass={cs.IR} }

搜集汇总

数据集介绍

构建方式

AutoScholarQuery和RealScholarQuery数据集的构建方式体现了学术搜索领域的前沿技术。AutoScholarQuery是一个合成数据集，包含了35,000个细粒度的学术查询及其对应的论文，这些论文来源于顶级AI会议出版物。通过强化学习优化，该数据集为PaSa系统的训练提供了高质量的输入。RealScholarQuery则是一个真实世界的基准数据集，收集了50个由AI研究人员提出的真实学术查询，并由专业注释者通过各种检索方法尽可能全面地识别每个查询的答案。这两个数据集的构建过程充分考虑了学术搜索的复杂性和多样性，确保了数据的广泛覆盖性和实用性。

特点

AutoScholarQuery和RealScholarQuery数据集的特点在于其高质量和多样性。AutoScholarQuery通过合成方法生成了大量细粒度的学术查询，涵盖了广泛的AI领域，确保了数据的多样性和代表性。RealScholarQuery则通过收集真实世界的学术查询，提供了更为贴近实际应用场景的测试数据。这两个数据集不仅包含了丰富的查询和论文信息，还通过专业注释确保了数据的准确性和可靠性。此外，数据集的结构设计合理，便于研究人员进行高效的数据处理和模型训练。

使用方法

AutoScholarQuery和RealScholarQuery数据集的使用方法灵活多样，适用于多种学术搜索任务。研究人员可以通过Hugging Face平台下载数据集，并按照提供的目录结构进行数据准备。数据集的使用流程包括数据下载、模型准备和系统运行三个主要步骤。用户可以通过运行提供的脚本文件，调用Google Search API和arXiv/ar5iv搜索API，实现自动化的学术论文搜索和筛选。此外，数据集还支持用户进行自定义的模型训练和优化，通过修改代码和配置参数，研究人员可以根据具体需求调整系统的性能和行为。

背景与挑战

背景概述

AutoScholarQuery和RealScholarQuery数据集由字节跳动研究团队于2024年推出，旨在支持PaSa（Paper Search Agent）这一基于大语言模型的学术论文搜索代理的开发与优化。AutoScholarQuery是一个包含35,000条细粒度学术查询及其对应论文的合成数据集，数据来源于顶级人工智能会议出版物。RealScholarQuery则是一个包含50条真实世界学术查询的基准数据集，用于评估PaSa在更实际场景中的表现。这些数据集的创建标志着学术搜索领域在自动化与智能化方向上的重要进展，显著提升了复杂学术查询的处理能力与准确性。

当前挑战

AutoScholarQuery和RealScholarQuery数据集在构建与应用过程中面临多重挑战。首先，学术查询的复杂性与多样性要求数据集能够覆盖广泛的领域与主题，这对数据的多样性与质量提出了极高要求。其次，合成数据与真实数据之间的差距可能导致模型在实际应用中的表现不佳，因此需要通过RealScholarQuery这样的真实数据集进行验证与优化。此外，数据集的构建还涉及大规模论文的收集与标注，这对数据处理与存储技术提出了挑战。最后，如何确保模型在复杂查询中的高效性与准确性，尤其是在多轮搜索与引用网络扩展中的表现，是PaSa系统面临的核心技术难题。

常用场景

经典使用场景

AutoScholarQuery和RealScholarQuery数据集在学术搜索领域具有广泛的应用。AutoScholarQuery作为合成数据集，主要用于训练和优化基于大语言模型的学术搜索代理，如PaSa系统。通过该数据集，研究者能够模拟复杂的学术查询场景，提升模型在细粒度查询中的表现。RealScholarQuery则作为真实世界的基准测试集，用于评估模型在实际应用中的性能，确保其在真实学术环境中的有效性。

衍生相关工作

基于AutoScholarQuery和RealScholarQuery数据集，研究者开发了多项经典工作。例如，PaSa系统通过强化学习优化了学术搜索代理的性能，显著超越了传统搜索引擎和基于GPT-4的模型。此外，这些数据集还催生了多篇相关研究论文，探讨了学术搜索中的自动化决策、文献推荐算法优化等问题，推动了学术搜索领域的技术进步。

数据集最近研究