WikiPassageQA

Name: WikiPassageQA
Creator: 马萨诸塞大学阿默斯特分校智能信息检索中心
Published: 2018-05-10 11:14:42
License: 暂无描述

arXiv2018-05-10 更新2024-06-21 收录

下载链接：

https://ciir.cs.umass.edu/downloads/wikipassageqa

下载链接

链接失效反馈

官方服务：

资源简介：

WikiPassageQA是由马萨诸塞大学阿默斯特分校智能信息检索中心创建的一个专为非事实性答案段落检索设计的数据集。该数据集包含4165个问题，每个问题都附有在相关文档中的答案段落位置。数据集通过亚马逊的Mechanical Turk平台创建，确保了数据的质量和多样性。WikiPassageQA旨在解决移动和语音搜索中对长答案段落检索的需求，为深度学习模型提供了一个高质量的训练和测试平台。

WikiPassageQA is a dataset dedicated to non-factual answer passage retrieval, developed by the Center for Intelligent Information Retrieval at the University of Massachusetts Amherst. It contains 4,165 questions, each paired with the positions of their corresponding answer passages in relevant documents. The dataset was constructed via Amazon Mechanical Turk to ensure its quality and diversity. WikiPassageQA aims to address the demand for long answer passage retrieval in mobile and voice search scenarios, serving as a high-quality training and testing platform for deep learning models.

提供机构：

马萨诸塞大学阿默斯特分校智能信息检索中心

创建时间：

2018-05-10

搜集汇总

数据集介绍

构建方式

WikiPassageQA数据集的构建依托于Amazon Mechanical Turk众包平台，选取了来自Open Wikipedia Ranking中排名前863篇的高质量维基百科文档。标注者被要求为每篇文档创建五个非事实型问题，并标注出文档内连续句子的答案段落，同时明确禁止“谁”、“哪里”、“何时”等事实型问题。为确保标注质量，仅允许通过率高于98%且完成超过1000个任务的工人参与，且同一工人不能对同一文档重复提交。每篇文档的标注报酬为0.65美元，最终经过质量筛选，从4908个问答对中保留了4165个高质量样本。

特点

该数据集的核心特点在于其专注于非事实型答案段落检索，答案段落平均长度达133词，远超传统问答数据集。问题类型以“什么”、“如何”、“为什么”为主导，分别占43.8%、36.6%和14.0%，体现了对复杂信息需求的覆盖。每个问题对应一个唯一的答案段落，且段落分布于同一文档的不同位置，避免了虚假负样本的风险。此外，数据集的规模达到4165个查询，足以支持深度神经网络的训练，弥补了此前WebAP数据集仅含82个查询的不足。

使用方法

在模型评估中，数据集被划分为训练集（3332个查询）、开发集（417个查询）和测试集（416个查询）。每个维基百科文档被分割为每六个句子一段的候选段落，若候选段落与标注答案段落的二元组重叠超过15%，则视为相关。检索时仅从目标查询对应的文档中选取候选段落，而非全集合。基准实验涵盖了传统IR模型（如BM25、QL）和多种神经网络架构（如LSTM、CNN+TF、Memory-CNN-LSTM+TF），其中Memory-CNN-LSTM+TF模型因其逐句迭代并更新记忆张量的设计，在MAP、MRR等指标上表现最优。

背景与挑战

背景概述

在移动搜索与语音助手日益普及的背景下，精准检索能够回答用户复杂信息需求的答案段落成为信息检索领域的核心挑战。现有的问答数据集多聚焦于事实型问题或短句匹配，难以支撑对非事实型问题在长文档中进行段落级检索的研究。为此，马萨诸塞大学阿默斯特分校智能信息检索中心的Daniel Cohen、Liu Yang与W. Bruce Croft于2018年提出了WikiPassageQA数据集。该数据集基于维基百科构建，包含4165个由众包工人生成的非事实型问题及其对应的答案段落，每个段落均位于主题相关的大文档中。其诞生填补了大规模、开放域非事实型答案段落检索基准的空白，为传统检索模型与深度神经网络在该任务上的比较提供了标准化平台，显著推动了信息检索与问答系统的交叉研究。

当前挑战

WikiPassageQA所解决的领域问题在于非事实型答案段落检索面临多重独特挑战：首先，答案段落长度显著长于事实型问答中的短句，平均达133词，要求模型具备长文本语义建模能力；其次，查询与答案段落之间并非显式匹配，而是需要理解跨句的复杂信息需求，这对传统词袋模型与浅层神经网络构成严峻考验。在数据集构建过程中，挑战同样突出：为保障标注质量，需严格筛选众包工人（要求完成1000次以上任务且批准率超98%），并禁止“谁、何时、何地”等事实型问题；同时，通过两轮标注与过滤机制（剔除事实型评分低于0.66或段落质量评分低于2的样本），最终从4908对问答中筛选出4165对高质量数据，确保了基准的可靠性。

常用场景

经典使用场景

在移动搜索与语音助手的浪潮中，用户对简洁而精准的答案片段的需求日益凸显。WikiPassageQA 数据集应运而生，专为非事实型问答中的答案段落检索任务而设计。其经典使用场景聚焦于从长篇维基百科文档中，定位并提取出能够完整回答用户复杂问题的连续文本段落，而非简单的实体或单句。研究者利用该数据集评估模型在主题相关文档内区分答案起止位置的能力，为开放域问答系统提供了关键的性能测试基准。

衍生相关工作

WikiPassageQA 的发布催生了一系列针对长文本段落检索的神经模型改进工作。例如，Memory-CNN-LSTM-TF 模型通过引入文档向量记忆张量与逐句迭代读取机制，在段落级答案检索上超越了传统 BM25 与基础 CNN 架构。后续研究进一步探索了基于 Transformer 的预训练语言模型在此任务上的微调策略，以及结合段落摘要与多任务学习的范式，不断丰富着非事实型问答领域的方法论体系。

数据集最近研究