AutoScholarQuery, RealScholarQuery
收藏数据集概述
数据集名称
PaSa 数据集
数据集简介
PaSa 是一个基于大型语言模型的学术论文搜索代理,能够自主进行一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献,以最终获得复杂学术查询的全面且准确的结果。PaSa 使用强化学习进行优化,并使用了合成数据集 AutoScholarQuery 进行训练。此外,还开发了 RealScholarQuery 基准测试集,用于评估 PaSa 在更现实场景中的表现。
数据集内容
AutoScholarQuery
- 类型: 合成数据集
- 领域: 人工智能
- 规模: 35,000 条细粒度的学术查询及其对应的论文
- 来源: 顶级 AI 会议出版物
RealScholarQuery
- 类型: 真实世界数据集
- 领域: 人工智能
- 规模: 50 条由 AI 研究人员提出的真实世界细粒度研究查询
- 标注: 由专业标注人员通过各种检索方法尽可能全面地识别每个查询的答案
数据集结构
pasa/data ├── AutoScholarQuery │ ├── dev.jsonl │ ├── test.jsonl │ └── train.jsonl ├── paper_database │ ├── cs_paper_2nd.zip │ └── id2paper.json ├── RealScholarQuery │ └── test.jsonl ├── sft_crawler │ └── train.jsonl └── sft_selector ├── test.jsonl └── train.jsonl
数据集获取
- AutoScholarQuery: 包含训练、开发和测试集
- RealScholarQuery: 仅包含测试集
- 数据集下载地址: pasa-dataset
数据集用途
- 训练: 用于训练 PaSa 代理的 Crawler 和 Selector 模型
- 评估: 用于评估 PaSa 在合成和真实世界学术查询中的表现
数据集性能
- PaSa-7b: 在 AutoScholarQuery 测试集上,PaSa-7b 在召回率和精确率上均优于所有基线模型。在 RealScholarQuery 上,PaSa-7b 在真实世界学术搜索场景中表现出更大的优势。
数据集引用
BibTeX @misc{he2024pasa, title={PaSa: An LLM Agent for Comprehensive Academic Paper Search}, author={Yichen He and Guanhua Huang and Peiyuan Feng and Yuan Lin and Yuchen Zhang and Hang Li and Weinan E}, year={2025}, eprint={2501.10120}, archivePrefix={arXiv}, primaryClass={cs.IR} }




