AIRQA-REAL
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/X-LANCE/NeuSym-RAG
下载链接
链接失效反馈官方服务:
资源简介:
AIRQA-REAL是一个针对学术论文的问答数据集,包含553个样本和18个实例特定的评估指标。该数据集由上海交通大学人工智能教育部重点实验室、苏州语言计算江苏省重点实验室和苏州AISpeech有限公司共同创建。数据集内容主要来源于2023年和2024年发表的AI论文,旨在解决学术论文中关键细节的提取问题。数据集创建过程中,研究人员采用了多视图分块和模式化解析的方法,将半结构化的PDF内容组织成关系数据库和向量存储,从而实现了LLM代理的迭代收集上下文直到生成答案的能力。
AIRQA-REAL is an academic paper-oriented question answering dataset consisting of 553 samples and 18 instance-specific evaluation metrics. It was jointly developed by the Key Laboratory of Artificial Intelligence of the Ministry of Education, Shanghai Jiao Tong University, the Jiangsu Key Laboratory of Language Computing, Soochow University, and Suzhou AISpeech Co., Ltd. The dataset content is primarily sourced from AI papers published in 2023 and 2024, aiming to address the challenge of extracting key details from academic papers. During the dataset construction phase, researchers adopted multi-view chunking and schema-based parsing methods to organize semi-structured PDF content into relational databases and vector stores, thereby endowing LLM Agents with the ability to iteratively gather context until generating final answers.
提供机构:
MoE Key Lab of Artificial Intelligence, Shanghai Jiao Tong University, Shanghai, China; Jiangsu Key Lab of Language Computing, Suzhou, China; AISpeech Co., Ltd., Suzhou, China
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
AIRQA-REAL数据集的构建基于对2023年和2024年发表的AI研究论文的全面解析与标注。通过16名研究人员的共同努力,数据集涵盖了553个问题,这些问题跨越了单文档细节、多文档分析和论文检索三种任务类型,并细分为文本、表格、图像、公式和元数据五个类别。数据集的构建过程包括PDF文件的解析、多视角分块、非文本元素的提取以及元数据的获取,最终将半结构化的PDF内容组织到关系数据库和向量存储中,以支持复杂的问答任务。
特点
AIRQA-REAL数据集的特点在于其复杂性和多样性。它不仅覆盖了多种任务类型和问题类别,还引入了18种实例特定的评估指标,包括硬编码的客观指标和基于LLM的主观评估。数据集中的问题设计灵活,能够适应不同的输出格式要求,如Python列表或浮点数,从而为模型提供了丰富的测试场景。此外,数据集的构建充分利用了PDF文档的固有结构和布局,为研究者提供了一个接近真实世界场景的测试平台。
使用方法
使用AIRQA-REAL数据集时,研究者可以通过NeuSym-RAG框架进行混合神经符号检索,结合数据库的精确查询和向量存储的语义匹配能力。数据集支持多轮交互式检索,允许模型通过预测可执行动作(如RETRIEVEFROMDATABASE或RETRIEVEFROMVECTORSTORE)来逐步收集上下文信息,直至足够生成答案。此外,数据集还提供了详细的评估函数,支持对模型输出进行格式化和实例特定的执行评估,确保评估的准确性和灵活性。
背景与挑战
背景概述
AIRQA-REAL数据集由上海交通大学X-LANCE实验室于2025年提出,旨在解决学术论文PDF文档的复杂问答问题。随着学术论文数量的爆炸式增长,研究人员面临从海量文献中高效获取关键信息的挑战。该数据集基于2023-2024年发表的AI领域论文构建,包含553个涵盖单文档细节、多文档分析和文献检索三类任务的问题,涉及文本、表格、图像、公式和元数据五种类型。其创新性在于首次实现了对完整PDF文档的结构化解析与多模态编码,为基于大语言模型的学术知识问答系统提供了重要基准。
当前挑战
AIRQA-REAL面临双重挑战:在领域问题层面,需解决跨文档知识关联、半结构化内容理解及多模态信息融合等难题,特别是处理数学运算、比较查询等精确语义解析任务时传统神经检索方法存在局限;在构建过程中,面临PDF文档多视图分块(如章节、表格、公式等非文本元素的精准提取)、异构数据统一表征(关系型数据库与向量库的协同构建)以及人工标注一致性(需16名研究者对复杂问题进行标准化标注)等工程挑战。此外,数据集的评价体系需兼顾客观指标(如数值精度)与主观评估(通过LLM判断语义一致性),增加了质量控制的复杂度。
常用场景
经典使用场景
AIRQA-REAL数据集在学术研究领域中被广泛应用于基于PDF文档的问答系统开发。该数据集通过多视角解析和结构化存储PDF内容,支持复杂的单文档细节查询、多文档分析以及论文检索任务。研究人员利用其丰富的标注信息(包括文本、表格、图像、公式和元数据五大类别),能够有效测试和优化混合神经符号检索框架的性能。
实际应用
在实际应用中,AIRQA-REAL为科研文献管理系统提供了关键技术支持。其典型应用场景包括:学术搜索引擎的智能问答模块、论文综述自动生成系统、跨文献知识关联分析工具等。医疗和法律等垂直领域也可借鉴其混合检索框架,构建专业文档的智能解析平台。
衍生相关工作
该数据集催生了多个创新性研究工作:GraphRAG通过知识图谱增强检索能力,HybridRAG探索了金融文档的混合检索方案,FastRAG则将模式学习引入结构化数据检索。其多视角解析思想更启发了后续研究对文档布局信息的深度利用,推动了PDF智能处理技术的整体发展。
以上内容由遇见数据集搜集并总结生成



