QASPER

Name: QASPER
Creator: 艾伦人工智能研究所
Published: 2021-05-07 08:12:34
License: 暂无描述

arXiv2021-05-07 更新2024-06-21 收录

下载链接：

https://allenai.org/project/qasper

下载链接

链接失效反馈

官方服务：

资源简介：

QASPER是由艾伦人工智能研究所创建的一个针对学术研究论文的信息寻求问答数据集。该数据集包含5049个问题，覆盖1585篇自然语言处理领域的论文。每个问题由NLP实践者基于论文的标题和摘要提出，并由另一组NLP实践者提供答案及支持证据。QASPER旨在解决现有问答数据集在处理复杂文档级推理任务上的不足，特别强调整个论文而非仅仅是摘要的信息需求。数据集的创建过程涉及从开放获取的NLP论文中筛选，并通过两阶段的数据收集界面分别收集问题和答案。QASPER的应用领域主要集中在提高机器阅读理解能力，尤其是在学术研究领域中进行信息检索和问答。

QASPER is an information-seeking question answering dataset for academic research papers developed by the Allen Institute for AI. This dataset includes 5,049 questions covering 1,585 papers in the field of natural language processing. Each question is formulated by NLP practitioners based on the title and abstract of a target paper, with corresponding answers and supporting evidence provided by a separate group of NLP practitioners. QASPER is designed to address the limitations of existing question answering datasets in complex document-level reasoning tasks, with a particular focus on information needs that span entire research papers rather than just their abstracts. The dataset creation workflow involves screening open-access NLP papers, and collecting questions and answers separately via a two-stage data collection interface. The main application scenarios of QASPER center around improving machine reading comprehension capabilities, especially for information retrieval and question answering tasks within academic research domains.

提供机构：

艾伦人工智能研究所

创建时间：

2021-05-07

搜集汇总

数据集介绍

构建方式

在学术文献阅读理解领域，QASPER数据集的构建体现了对真实信息需求的精准捕捉。其构建过程采用解耦式设计，首先从S2ORC语料库中筛选出1,585篇开放获取的自然语言处理领域论文，确保文本质量与领域相关性。随后招募具有NLP背景的研究人员作为标注者，通过专门设计的交互界面，让标注者仅阅读论文标题与摘要后提出自然衍生的后续问题，模拟真实读者的探究过程。问题收集完成后，由另一组独立的标注者基于全文内容进行答案与证据标注，他们需要判断问题是否可答，并从文本段落、图表中选取最小证据集，最终提供简洁答案。这种双阶段标注机制有效保障了问题的真实性与答案的可靠性。

特点

QASPER数据集的核心特征在于其深刻反映了学术文献阅读中的复杂推理需求。区别于传统的事实型问答，该数据集中的问题源于对论文标题与摘要的自然追问，因而具有高度的领域特定性和上下文依赖性，约67%的问题仅适用于其对应的特定论文。数据集中超过半数的答案需要从多个段落中整合证据，13%的问题涉及图表信息，这要求模型具备跨段落、跨模态的理解与推理能力。此外，答案类型涵盖抽取式、抽象式、是非判断及不可回答等多种形式，平均每个问题拥有多个参考答案，体现了学术问答中固有的多样性与不确定性，为模型评估提供了更贴近现实的挑战。

使用方法

QASPER数据集主要用于推动面向长文档、信息寻求式问答系统的研究与发展。研究者可将该数据集作为基准，训练和评估模型在给定完整学术论文背景下回答复杂问题的能力。典型的使用方法包括：将论文全文与问题作为输入，要求模型预测答案及其在文中的证据位置。由于论文长度常超出标准Transformer模型的限制，常需采用如Longformer-Encoder-Decoder等支持长序列的架构。评估时采用答案跨度F1值（Answer-F1）和证据选择F1值（Evidence-F1）作为核心指标，并与数据集提供的人类表现下限进行对比。该数据集也支持在仅给定黄金证据的设定下，专门评估答案生成模块的性能，从而分离证据检索与答案推理的难度。

背景与挑战

背景概述

在自然语言处理领域，学术论文的阅读理解与信息检索一直是研究的热点。QASPER数据集由艾伦人工智能研究所于2021年推出，旨在解决信息寻求型问答任务中的复杂推理问题。该数据集聚焦于自然语言处理领域的学术论文，包含5,049个问题，覆盖1,585篇论文，每个问题均由仅阅读标题和摘要的NLP从业者提出，并由另一组从业者基于全文提供答案与证据。QASPER的创建推动了文档级问答系统的发展，强调了跨段落、图表的多源证据整合能力，为学术文本的智能理解提供了重要基准。

当前挑战

QASPER数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，该数据集旨在解决学术论文中的信息寻求型问答，这要求模型具备跨段落、图表的多跳推理能力，以处理55.5%需多段落证据的问题，而现有模型在答案生成与证据选择上仍显著落后于人类表现；其二，在构建过程中，挑战包括确保问题的真实性与复杂性，通过解耦问题提出与回答阶段来模拟真实阅读场景，同时需处理长文档输入（如全文编码）与多模态证据（如图表）的整合，这增加了数据标注与模型设计的难度。

常用场景

经典使用场景

在自然语言处理领域，QASPER数据集为文档级信息检索式问答系统提供了关键基准。其经典应用场景在于评估模型对学术论文全文的理解能力，特别是当问题仅基于标题和摘要提出时，模型需从论文的多个段落、图表中整合证据以生成准确答案。这一场景模拟了真实读者在阅读学术文献时的信息需求，要求系统具备跨段落推理和复杂语义理解的能力，从而推动了长文档问答技术的发展。

衍生相关工作

QASPER数据集衍生了一系列经典研究工作，主要集中在长文档问答模型的设计与优化。例如，基于Longformer-Encoder-Decoder（LED）的模型被广泛用于处理论文级长文本输入，并通过多任务学习结合证据提取与答案生成。后续研究扩展了多模态推理方向，尝试整合图表信息以回答13%依赖非文本证据的问题。同时，该数据集也启发了领域自适应预训练方法的探索，如在科学文献语料上微调模型，以提升对学术术语和结构的理解能力。

数据集最近研究