PeerQA
收藏arXiv2025-02-19 更新2025-02-21 收录
下载链接:
https://github.com/UKPLab/peerqa
下载链接
链接失效反馈官方服务:
资源简介:
PeerQA是一个真实世界的科学文档级别问答数据集,问题来源于同行评审,答案由原论文作者注释。该数据集包含579个问答对,来源于208篇学术论文,主要涵盖机器学习和自然语言处理领域,同时也包含地球科学和公共卫生等其他科学社区的问题。数据集支持三个关键任务:证据检索、不可回答问题分类和答案生成。
PeerQA is a real-world scientific document-level question answering dataset. Its questions are sourced from peer reviews, and its answers are annotated by the original authors of the corresponding papers. This dataset comprises 579 question-answer pairs derived from 208 academic papers, primarily covering the fields of machine learning and natural language processing, while also including questions from other scientific communities such as earth science and public health. The dataset supports three core tasks: evidence retrieval, unanswerable question classification, and answer generation.
提供机构:
德国达姆施塔特技术大学普及知识处理实验室(Ubiquitous Knowledge Processing Lab (UKP Lab))、计算机科学系及黑森人工智能中心(Hessian Center for AI (hessian.AI))
创建时间:
2025-02-19
搜集汇总
数据集介绍

构建方式
PeerQA数据集的构建采用了从同行评审中提取问题的方法,这些问题是评审者在仔细审查科学文章时提出的问题。答案则由每篇论文的原始作者进行标注。数据集包含来自208篇学术论文的579个QA对,其中大部分来自机器学习和自然语言处理领域,以及地球科学和公共卫生等其他科学社区的子集。PeerQA支持开发实用QA系统的三个关键任务:证据检索、无法回答的问题分类和答案生成。
特点
PeerQA数据集的特点包括:1. 真实性:问题来自真实的同行评审,具有现实世界的背景。2. 专家标注:答案由原始论文作者标注,确保答案的准确性和专业性。3. 多样性:数据集涵盖了多个科学领域,包括机器学习、自然语言处理、地球科学和公共卫生等。4. 长文本上下文:论文的平均大小为12k个token,为长上下文建模提供了挑战性的基准。
使用方法
使用PeerQA数据集的方法包括:1. 证据检索:使用模型从论文中检索与问题相关的证据句子。2. 无法回答的问题分类:训练模型判断问题是否可以在论文中找到答案。3. 答案生成:生成对问题的自由式答案。4. 基线系统:PeerQA提供了三个任务的基线系统,可用于评估和比较不同模型的性能。
背景与挑战
背景概述
PeerQA数据集是一个针对科学文献的问答数据集,其问题来源于同行评审,这些评审中的问题是在审稿人仔细审查科学文章时提出的。答案则由每篇论文的原始作者进行标注。该数据集包含来自208篇学术文章的579个问答对,其中大部分来自机器学习和自然语言处理领域,还包括来自地球科学和公共卫生等其他科学社区的子集。PeerQA支持开发实用问答系统的三个关键任务:证据检索、不可回答问题分类和答案生成。研究人员对收集的数据集进行了详细分析,并为所有三个任务建立了基准系统。实验和分析揭示了在文档级检索中进行去语境化的必要性,发现即使是简单的去语境化方法也能在各种架构中一致地提高检索性能。在答案生成方面,PeerQA作为长上下文建模的挑战性基准,因为论文的平均大小为12k个标记。
当前挑战
PeerQA数据集面临的主要挑战包括:1) 科学文献数量的指数级增长导致审查工作量的增加,研究人员需要更有效地消费科学文章中的信息,这需要开发能够从文章中提取信息的自动问答系统;2) 收集科学问答数据集的挑战性,需要专家注释者,且自然出现的问题难以获取;3) 现有数据集的局限性,如BioASQ数据集只标注了摘要,限制了问答的复杂性和上下文;4) PeerQA数据集的规模相对较小,需要模型在有限数据上泛化;5) PeerQA数据集主要涵盖机器学习和自然语言处理领域,其他科学领域的代表性不足;6) PeerQA数据集仅限于英语,限制了其在多语言环境中的应用;7) 作者提供的自由式答案可能包含超出论文信息范围的内容,这为问答系统的准确性带来了挑战;8) 长文本问答的评价仍然是一个具有挑战性的研究领域,需要更好的评估指标和方法。
常用场景
经典使用场景
PeerQA 数据集主要被用于研究科学论文中的问答系统,特别是针对证据检索、不可回答问题分类和答案生成三个关键任务。该数据集的问题来源于同行评审,这些问题是审稿人在仔细审查科学论文时提出的问题,而答案则由原始论文作者进行标注。PeerQA 数据集支持开发实用问答系统的三个关键任务:证据检索、不可回答问题分类和答案生成。
实际应用
PeerQA 数据集在实际应用中可用于开发自动问答系统,这些系统可以支持研究人员和审稿人有效地从科学文章中提取信息。通过集成到阅读和审稿界面中,自动问答系统可以帮助研究人员和审稿人避免在审稿中提出文章中已经解决的问题。此外,PeerQA 数据集还可以用于改进同行评审的质量,例如通过避免审稿中的问题,这些问题在文章中已经得到解决,但可能被审稿人忽视。PeerQA 数据集也可以用于开发支持作者和审稿人的方法,例如通过构建问答系统来辅助撰写和审稿科学文章。
衍生相关工作
PeerQA 数据集衍生了相关的研究工作,例如基于同行评审提取问题的方法。与 PeerQA 不同,这些方法使用作者在答辩中提供的回答来获得参考答案,并通过手动和自动映射将答案与论文中的相关信息相关联。此外,PeerQA 数据集还启发了长上下文问答的研究,例如 NarrativeQA、Pang 等人构建的多选题数据集和 Reddy 等人扩展的 FinQA 数据集。PeerQA 数据集为这些研究提供了另一个资源,具有平均长度为 12k 个标记的文档,其中 30% 的问题需要从论文中的多个位置组合信息。
以上内容由遇见数据集搜集并总结生成



