AcademicBrowse

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/PKU-DS-LAB/AcademicBrowse

下载链接

链接失效反馈

官方服务：

资源简介：

AcademicBrowse是一个专门设计用来评估大型语言模型在学术研究复杂信息检索能力的数据集。该数据集的特点包括：基于真实学术学习和研究环境的问题，避免误导模型；答案往往需要至少三次深度搜索才能得出，对单一模型来说具有挑战性；答案唯一，来源清晰，解释简洁，便于审核和验证；数据集覆盖了至少12个不同的学术领域，包括计算机科学、文学、生物学、政治学、经济学、数学、人口学、科学技术史、化学、社会学、公共卫生和物理学。数据集由223个精心挑选的中文问题组成，每个问题都附有答案、解释和所属领域。这些问题是由北京大学不同院系的本科生和研究生团队创建的，确保了问题反映了真实的学术搜索场景。

创建时间：

2025-06-10

原始信息汇总

AcademicBrowse 数据集概述

数据集描述

AcademicBrowse 是首个专门用于评估大语言模型（LLMs）在学术研究中复杂信息检索能力的数据集。

关键特征

学术实用性：问题基于真实的学术学习和研究环境，避免误导模型。
高难度：答案通常需要至少三次深度搜索才能得出，对单一模型具有挑战性。
简洁评估：答案唯一，具有明确的来源和简短解释，便于审核和验证。
广泛覆盖：数据集涵盖至少12个不同学科，包括计算机科学、文学、生物学、政治学、经济学、数学、人口学、科学技术史、化学、社会学、公共卫生和物理学。

数据集结构

数据集包含223个精心设计的中文问题，每个问题包含以下字段：

question：学术查询或问题。
answer：问题的正确答案。
explanation：答案的简要解释或理由，包括来源。
domain：问题所属的学科或领域。

数据集以JSON文件形式提供，包含条目列表。

实验结果

模型	All (%)	Science & Engineering (%)	Social Sciences & Humanities (%)
gpt-4o-search-preview	18.83	18.64	19.05
gpt-4o-mini-search-preview	10.31	10.17	10.48
deepseek-r1-0528	8.52	5.08	12.38
gpt-4.1	7.17	5.93	8.57
gpt-4o-2024-11-20	3.59	1.69	5.71
gpt-4o-mini	2.24	0.85	3.81

所有实验的评判模型为GPT-4o-mini。

引用信息

该论文即将在arXiv上公开发表。

附加信息

本项目由Grant 624B2005资助。
感谢以下人员在问题解决和评估中的贡献：Xun Zhao, Zizhuo Fu, Yuqian Zhan, Xinhao Ji, Jiarui Sun, Junhao Zhang, Shengfan Wang, Ziteng Lu, Yumeng Song, Ziyan Yang, Hongjiao Wang, Shan Zhang, Huahui Lin, Junhong Liu, Zhengyang Wang, Yuchen Lu, Yanxi Xu。

团队成员

领导

Tong Yang; Yuhan Wu;

核心贡献者

Junting Zhou; Wang Li; Yiyan Liao; Nengyuan Zhang; Tingjia Miao; Zhihui Qi

数据集联系人

如需更多详情，请联系：yangtong@pku.edu.cn

搜集汇总

数据集介绍

构建方式

在学术信息检索领域，ScholarSearch数据集由北京大学多个院系的本科生与研究生团队精心构建，基于真实学术学习与研究场景，避免了误导性问题的设计。该数据集包含223个高质量中文问题，每个问题均配有标准答案、详细解释及所属学科领域，覆盖计算机科学、文学、生物学等至少12个不同学科，确保问题具有学术实用性与广泛代表性。

使用方法

研究者可通过加载JSON格式的数据文件，获取每个条目的问题、答案、解释及学科领域信息。该数据集专用于评估大语言模型在学术检索场景下的性能，用户可参照实验部分提供的基准结果进行比较分析，亦可结合自身模型开展跨学科检索能力测试，推动学术信息检索技术的进一步发展。

背景与挑战

背景概述

学术信息检索领域长期面临着复杂查询处理的挑战，北京大学数据科学实验室于2024年推出的AcademicBrowse数据集正是针对这一需求而构建。该数据集由多学科背景的本硕博学生团队共同创建，专注于评估大语言模型在真实学术场景中的深度检索能力。其核心研究问题在于解决学术环境中需要多重推理的复杂信息需求，覆盖计算机科学、文学、生物学等12个学科领域，通过223个精心设计的中文问答对推动学术检索技术的发展。

当前挑战

该数据集主要解决学术深度检索的挑战，包括多跳推理、跨学科知识整合和精确来源追溯等复杂问题。构建过程中面临真实性问题确保，需要平衡各学科代表性同时保持问题难度一致性，且答案验证需依赖领域专家多轮审核。中文学术表达的多样性和术语标准化亦增加了数据标注的复杂度，每个问题需经过至少三次深度搜索才能确定标准答案。

常用场景

经典使用场景

在学术信息检索领域，AcademicBrowse数据集被广泛用于评估大语言模型在复杂学术查询中的多步推理能力。研究者通过该数据集模拟真实学术场景中的深度搜索过程，要求模型进行多次信息挖掘与逻辑整合，从而测试其跨学科知识融合与精准答案生成性能。该数据集涵盖十二大学科领域的223个高质量问题，为模型评估提供了严谨的基准环境。

解决学术问题

该数据集有效解决了学术检索系统中多跳推理能力评估的缺失问题。通过设计需要至少三次深度搜索才能获取答案的高难度问题，它推动了模型在跨学科知识关联、证据链构建与溯源验证方面的研究进展。其独特的领域分类体系为量化模型在不同学科的表现差异提供了科学依据，显著提升了学术检索评估的维度与精度。

实际应用

在实际应用中，该数据集可作为学术搜索引擎与智能研究助手的核心测试基准。教育机构可依托其构建学科知识检索模拟系统，培训学生的文献调研能力；科研团队则通过其验证智能代理在跨数据库检索、学术事实核查与综述生成任务中的实用性，为学术信息服务的智能化升级提供关键数据支撑。

数据集最近研究