PaperArena
收藏arXiv2025-10-13 更新2025-10-15 收录
下载链接:
https://github.com/Melmaphother/PaperArena
下载链接
链接失效反馈官方服务:
资源简介:
PaperArena 是一个用于评估基于大型语言模型的智能体在科学文献上的工具增强推理能力的基准测试平台。数据集包含从顶级开放获取AI会议中抽取的数万篇论文,并使用多模态大语言模型自动生成了初始的问题-答案对,最终形成了784个高质量的问题-答案对。该数据集旨在模拟真实研究场景,要求智能体在跨多篇论文和协调多种工具的基础上回答复杂的研究问题。
PaperArena is a benchmark platform for evaluating the tool-augmented reasoning capabilities of large language model-based AI Agents on scientific literature. The dataset includes tens of thousands of papers sampled from top-tier open-access AI conferences. Initial question-answer pairs were automatically generated from these papers via multimodal large language models, eventually yielding 784 high-quality question-answer pairs. This dataset is designed to simulate real-world research scenarios, requiring AI Agents to answer complex research questions by cross-referencing multiple papers and coordinating multiple tools.
提供机构:
中国科学技术大学
创建时间:
2025-10-13
原始信息汇总
PaperArena 数据集概述
数据集基本信息
- 名称:PaperArena
- 类型:评估基准数据集
- 领域:科学文献处理与智能体推理
- 状态:数据集即将发布
核心目标
PaperArena是一个专门针对科学文献的工具增强智能体推理评估基准,旨在测试大型语言模型智能体在真实科学研究场景中的表现。
关键特性
多步骤推理
- 评估智能体在模拟科学工作流程中的多步骤推理能力
- 要求智能体顺序使用工具(如PDF解析器、网络搜索)来追踪声明和验证结果
多模态理解
- 评估智能体对文本、图表、表格和公式的多模态理解能力
- 任务涉及将视觉数据与文本声明对齐或比较图表趋势与表格指标
跨文档整合
- 评估智能体从多篇论文中整合信息的能力
- 任务包括根据引用工作验证声明或从其他文档检索实现细节
数据库接口
- 测试智能体与结构化论文数据库交互的能力
- 智能体必须制定精确的元数据查询,解释返回结果,并将检索到的证据整合到推理步骤中
数据集构造
采用以工具为中心的流水线生成问答对:
- 使用工具库和预定义工具链经验指导大语言模型从科学论文创建初始问答对
- 通过半自动问答验证(包括问题混淆、答案标准化和人工审查)确保高质量和高难度
性能表现
- 最先进的智能体平均准确率仅为38.78%
- 在困难子集上,准确率下降至仅18.47%
- 所有测试的智能体都表现出低效的工具使用模式
获取方式
- Hugging Face:https://example.com
- Google Drive:https://example.com
相关资源
- 论文地址:https://arxiv.org/abs/2510.10909
- 代码仓库:https://github.com/Melmaphother/PaperArena
搜集汇总
数据集介绍

构建方式
在科学文献理解领域,现有基准多局限于单文档分析,难以评估智能体在真实研究场景中的跨文档推理与多工具协同能力。PaperArena的构建始于从顶级开放获取AI会议中精选的14,435篇论文,通过分层采样策略选取100篇兼具代表性与多样性的文献作为基础语料。采用三阶段流水线生成高质量问答对:首先设计涵盖多模态解析、上下文检索与程序化计算的专业工具库;随后基于工具链经验引导多模态大语言模型生成初始问答对,确保问题复杂度与覆盖广度;最后通过半自动化验证流程对问答对进行混淆处理与答案标准化,并经由人工审核筛选出784组符合真实研究需求的优质数据。
特点
该数据集的核心特征体现在其紧密贴合真实科研范式的多维评估体系。所有问题均设计为需通过多步骤推理才能解决,要求智能体像人类研究者一样规划工具使用顺序并整合异构信息源。数据集中深度融合了文本、图表、公式等多模态内容,智能体需具备跨模态对齐与联合推理能力才能完成证据提取与逻辑验证。特别强调跨文档整合能力,问题设计常涉及文献间引用关系的建模与矛盾信息的协调,同时要求智能体能对结构化论文数据库进行精准查询与结果解析。这种四位一体的能力评估框架有效填补了现有基准在复杂科学推理评估方面的空白。
使用方法
研究人员可通过PaperArena-Hub平台开展标准化评估,该平台提供模块化的工具环境与完整的智能体生命周期管理。使用时可配置单智能体或多智能体系统,前者采用ReAct机制实现推理与行动的交替执行,后者通过集中式架构由管理智能体协调任务分配。平台内置的多模态解析器支持PDF文档结构提取,上下文检索工具实现语义级文献搜索,代码执行器提供安全沙箱环境用于数值计算。评估过程不仅关注最终答案正确率,还通过推理步长与工具使用效率等指标分析智能体行为模式,并支持基于LLM-as-Judge协议的自动化评估与人工验证相结合的质量控制机制。
背景与挑战
背景概述
随着科学文献规模的指数级增长,研究人员面临信息过载与知识整合效率下降的双重挑战。为应对这一困境,中国科学技术大学认知智能国家重点实验室团队于2025年提出PaperArena评估基准,专注于解决大语言模型代理在科学文献理解中的核心问题。该基准通过构建包含784个高质量问答对的测试集,首次系统化评估代理在跨文档推理、多工具协调等真实科研场景中的表现,填补了现有基准仅关注单文档、单模态任务的空白。其创新性体现在将多步推理、多模态理解、跨文档整合与数据库交互四大能力维度纳入统一评估框架,为智能科研助手的发展提供了重要基础设施。
当前挑战
该数据集致力于解决科学文献场景中工具增强型代理推理的评估难题,其核心挑战体现在两个层面:在领域问题层面,现有代理面临多步推理链断裂、跨模态信息对齐偏差、长程依赖关系建模不足等认知瓶颈,导致在需要整合图表数据、程序代码与文本论述的复杂任务中表现不佳。在构建过程中,研发团队需攻克三大技术难关:首先是通过层次化采样策略平衡论文库的代表性与多样性,避免评估偏差;其次是设计半自动化验证机制确保问答对质量,同时维持工具链经验的持续迭代优化;最后需构建支持全生命周期管理的评估平台,实现从规划执行到反思优化的完整闭环。实验数据表明,即使最优代理系统在困难子集上的准确率仅为18.47%,印证了这些挑战的严峻性。
常用场景
经典使用场景
在科学文献理解领域,PaperArena数据集为评估基于大型语言模型的智能代理在真实研究场景中的推理能力提供了标准化测试平台。该数据集最经典的使用场景体现在模拟科研人员处理复杂研究问题的完整流程,要求智能代理通过多步骤推理整合来自多篇论文的异构信息,并协调使用包括多模态解析、上下文检索和程序化计算在内的多样化工具链。这种设计精准还原了研究人员在文献调研中需要跨越文档边界、综合文本图表、验证引用关系的实际工作模式。
实际应用
在实际应用层面,PaperArena数据集为开发面向科研辅助的智能代理系统提供了重要支撑。科研机构可利用该数据集训练和评估能够协助文献综述、假设验证和知识发现的智能代理,显著提升科研效率。教育领域可基于此构建自动化科研训练平台,帮助学生掌握文献分析和科学推理的核心技能。科技企业则能依托该基准开发更可靠的科研助手工具,为研究人员提供精准的文献检索、数据提取和结论验证服务。
衍生相关工作
基于PaperArena数据集的研究催生了多个重要衍生工作。在代理架构设计方面,研究者开发了更高效的多代理协作机制,通过任务分解和专业化分工提升复杂问题的解决能力。工具使用优化领域涌现出基于强化学习的工具选择策略,显著降低了冗余工具调用。多模态理解方向的研究者结合该数据集提出了新型的图文对齐模型,增强了代理对科学图表的结构化解析能力。这些工作共同推动了智能代理在科学发现场景中的实用化进程。
以上内容由遇见数据集搜集并总结生成



