five

PaperAsk

收藏
arXiv2025-10-25 更新2025-10-29 收录
下载链接:
http://arxiv.org/abs/2510.22242v1
下载链接
链接失效反馈
官方服务:
资源简介:
PaperAsk是一个用于评估大型语言模型(LLMs)在学术任务中可靠性的基准数据集,由德克萨大学和复旦大学的研究团队创建。数据集包含840个测试案例,涵盖了四个核心学术操作:引用检索、内容提取、论文发现和声明验证。数据集旨在模拟真实使用条件,通过网页接口进行评估,从而揭示LLMs在实际应用中的可靠性问题。

PaperAsk is a benchmark dataset for evaluating the reliability of Large Language Models (LLMs) in academic tasks, created by research teams from the University of Texas and Fudan University. The dataset contains 840 test cases covering four core academic operations: citation retrieval, content extraction, paper discovery, and claim verification. It is designed to simulate real-world usage conditions and conduct evaluations via web interfaces, thereby revealing the reliability issues of LLMs in practical applications.
提供机构:
德克萨大学,复旦大学
创建时间:
2025-10-25
原始信息汇总

PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading

基本信息

  • 标题: PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading
  • arXiv ID: arXiv:2510.22242v1
  • 提交日期: 2025年10月25日
  • 学科分类: Computer Science - Information Retrieval (cs.IR); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
  • DOI: https://doi.org/10.48550/arXiv.2510.22242

作者

Yutao Wu, Xiao Liu, Yunhao Feng, Jiale Ding, Xingjun Ma

摘要

大型语言模型(LLMs)越来越多地作为研究助手使用,但它们在学术任务中的可靠性仍未得到充分评估。本文介绍了PaperAsk,一个系统评估LLMs在四个关键研究任务中的表现的基准:引文检索、内容提取、论文发现和声明验证。我们在实际使用条件下(通过用户无法看到搜索操作的网络界面)评估了GPT-4o、GPT-5和Gemini-2.5-Flash。通过受控实验,我们发现了一致的可靠性失败:在多引用查询中,引文检索失败率为48-98%;特定章节内容提取失败率为72-91%;主题论文发现的F1分数低于0.32,遗漏超过60%的相关文献。进一步的人工分析将这些失败归因于检索上下文的不可控扩展以及LLMs倾向于优先考虑语义相关文本而非任务指令。在基本任务中,不同LLMs表现出不同的失败行为:ChatGPT经常拒绝回答而不是冒险出错,而Gemini则产生流畅但捏造的答案。为了解决这些问题,我们基于PaperAsk数据训练了轻量级可靠性分类器,以识别不可靠的输出。PaperAsk为推进基于LLM的学术辅助系统的可靠性评估提供了一个可重复和诊断性的框架。

相关链接

  • PDF链接: http://arxiv.org/pdf/2510.22242v1
  • TeX源码: http://arxiv.org/tex/2510.22242v1
搜集汇总
数据集介绍
main_image_url
构建方式
PaperAsk基准测试系统通过严谨的实验设计构建而成,涵盖引文检索、内容提取、论文发现与声明验证四大核心任务。研究团队从arXiv平台筛选2019至2025年间发表的计算机科学领域论文作为基础语料,通过人工验证确保每篇论文在主流搜索引擎中可被准确检索。测试用例设计采用渐进式复杂度策略,在引文检索任务中设置单篇至多篇(3/5/10篇)的阶梯式查询要求,内容提取任务则横跨物理学、生物学等七大学科领域以验证模型泛化能力。所有实验数据均通过人工标注建立黄金标准,确保评估结果的可靠性与可复现性。
特点
该数据集具备多维度评估特性,其任务设计模拟真实科研场景中的完整工作流。在结构层面,840个测试用例均匀分布在四个核心任务中,其中引文检索任务特别设计了多论文并发查询机制以检验系统负载能力。数据来源具有高度代表性,既包含计算机科学领域的密集测试,又通过跨学科论文验证模型泛化性能。评估指标采用严格的人工验证机制,针对不同任务设定精确的失败判定标准,如引文检索要求BibTeX字段完整准确,内容提取需精确匹配指定章节文本。这种设计能有效揭示模型在语义相似性偏好与结构约束遵从之间的内在矛盾。
使用方法
研究者可通过标准化流程使用该数据集进行可靠性评估。首先需配置商业LLM的网页接口环境,保持与真实用户一致的操作条件。执行评估时应遵循任务模块化原则,将复合查询分解为原子操作以控制变量。对于引文检索任务,建议采用渐进式测试策略,从单篇检索逐步扩展至多篇并发查询。内容提取任务需记录模型对跨学科文献的处理表现,特别关注章节定位准确性。结果分析阶段应结合人工验证与自动指标,重点观察模型在检索深度与语义理解之间的权衡行为。数据集支持三种改进方法的实证研究,包括查询简化、搜索功能禁用与轻量级分类器部署,为优化系统可靠性提供实践路径。
背景与挑战
背景概述
随着大型语言模型在学术研究辅助任务中的广泛应用,其可靠性评估成为关键问题。PaperAsk基准数据集由迪肯大学与复旦大学研究团队于2025年联合创建,聚焦于系统评估大语言模型在文献检索与阅读理解任务中的表现。该数据集通过构建引文检索、内容提取、文献发现与声明验证四大核心任务,覆盖计算机科学、生物学等七个学科领域,旨在揭示搜索增强型大语言模型在真实应用场景中的局限性。其创新性在于采用网页接口模拟实际研究环境,为评估基于大语言模型的学术辅助系统提供了可复现的诊断框架。
当前挑战
该数据集主要应对大语言模型在学术任务中可靠性评估的挑战:在领域问题层面,需解决多引文检索时准确率急剧下降、跨学科内容提取错误率高、文献发现任务中语义匹配与主题相关性判定的矛盾。在构建过程中面临数据采集复杂性的挑战,包括需确保测试查询在公共搜索引擎中的可验证性,人工标注提取要素的准确性保障,以及平衡学科覆盖范围与评估深度之间的张力。此外,保持评估场景真实性需协调黑盒网页接口与可控实验设计之间的冲突。
常用场景
经典使用场景
在学术信息检索领域,PaperAsk数据集被广泛用于评估大语言模型在文献搜索与阅读理解任务中的可靠性表现。该数据集通过构建引文检索、内容提取、论文发现和声明验证四大核心任务,系统检验模型在真实网络环境下的学术辅助能力。研究者通常采用该基准测试商业LLM在自主网络搜索场景中的表现,揭示模型在处理多篇文献引用时的系统性缺陷。
实际应用
在现实应用中,PaperAsk为开发可靠的学术研究助手提供了关键质量保障。教育机构可依据其评估结果筛选合格的文献检索工具,科研团队能通过该基准优化LLM的检索策略。出版机构则借助其发现的引文伪造模式完善学术诚信检测机制,而模型开发者利用其轻量级可靠性分类器实现输出质量实时监控,显著提升学术信息服务的可信度。
衍生相关工作
基于PaperAsk的评估发现,衍生出多项重要研究方向。包括针对多论文查询的分解策略研究,通过任务原子化降低上下文污染;开发轻量级可靠性分类器实现96%的故障检测准确率;探索检索深度与推理预算的平衡机制,以及构建抗间接提示注入的安全框架。这些工作共同推动了搜索增强型LLM在学术场景的稳健性发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作