WebQA

Name: WebQA
Creator: 百度深度学习研究院
Published: 2016-09-01 18:56:45
License: 暂无描述

arXiv2016-09-01 更新2024-06-21 收录

下载链接：

http://idl.baidu.com/WebQA.html

下载链接

链接失效反馈

官方服务：

资源简介：

WebQA是一个大规模的人工标注真实世界问答数据集，包含超过42,000个问题和556,000个证据。该数据集由百度深度学习研究院创建，旨在为开发和评估神经问答系统提供真实世界的数据支持。数据集中的问题均来自真实用户的日常提问，相比于控制条件下的数据集，更贴近实际应用场景。此外，每个问题都附有多个由人工标注的证据，适用于研究如证据排序和答案句选择等。WebQA的应用领域主要集中在开放领域的实体事实问答，旨在解决现有神经问答系统在处理大规模真实数据时的挑战。

WebQA is a large-scale manually annotated real-world question answering (QA) dataset containing over 42,000 questions and 556,000 evidence passages. It was developed by the Deep Learning Institute of Baidu, aiming to provide real-world data support for the development and evaluation of neural QA systems. All questions in the dataset are sourced from daily queries of real users, making it more aligned with actual application scenarios compared to controlled datasets. Moreover, each question is paired with multiple manually annotated evidence passages, which is suitable for research tasks including evidence ranking and answer sentence selection. The primary application domain of WebQA focuses on open-domain entity factoid question answering, and it is designed to address the challenges faced by existing neural QA systems when processing large-scale real-world data.

提供机构：

百度深度学习研究院

创建时间：

2016-07-21

搜集汇总

数据集介绍

构建方式

WebQA数据集的构建基于大规模的真实世界问答数据，涵盖了超过42,000个问题和556,000条证据。这些问题主要来源于百度知道等社区问答网站，确保了数据的真实性和多样性。每条问题都伴随着多个证据，这些证据通过搜索引擎从互联网中检索得到，并经过人工标注以确定其是否包含正确答案。数据集的设计旨在为开放域的事实型问答系统提供训练和评估的基础。

特点

WebQA数据集的特点在于其大规模和真实性。与以往的人工合成或受控条件下生成的数据集不同，WebQA的问题均来自真实用户的日常提问，反映了实际应用场景中的复杂性。此外，每条问题都配备了多个证据，这些证据不仅用于回答问题，还可用于证据排序和答案句子选择等研究。数据集的多样性和丰富性使其成为开发高效问答系统的理想选择。

使用方法

WebQA数据集的使用方法主要围绕其问答对的训练和评估展开。研究人员可以利用该数据集训练端到端的问答模型，特别是基于序列标注的模型。通过将问答问题转化为序列标注任务，模型能够直接从证据中提取答案，避免了传统方法中的复杂特征工程和高计算成本。此外，数据集还可用于评估模型在处理未见过的答案和词汇时的表现，进一步推动问答系统的鲁棒性和泛化能力。

背景与挑战

背景概述

WebQA数据集由百度深度学习研究院于2016年提出，旨在解决开放域事实型问答系统中大规模真实世界数据集的缺失问题。该数据集包含超过42,000个问题和556,000条证据，所有问题均由真实用户在日常生活中提出，具有较高的现实应用价值。WebQA的提出为神经问答系统的开发与评估提供了重要的数据支持，推动了问答系统领域的研究进展。该数据集的构建不仅填补了现有数据集的空白，还为问答系统的端到端训练提供了更为丰富的语料资源。

当前挑战

WebQA数据集面临的挑战主要体现在两个方面：首先，问答系统在真实世界数据上的开发与评估仍然存在困难，现有数据集要么规模较小，要么在生成方式上过于人工化，难以反映真实场景的复杂性。其次，现有的神经问答方法在答案生成上主要依赖于序列生成或分类/排序，这些方法在处理大规模词汇时计算成本高昂，且难以应对未见过的答案。WebQA通过引入序列标注技术，提出了一种新的答案生成方式，有效解决了上述问题，但仍需进一步优化以应对多证据、多实体等复杂场景的挑战。

常用场景

经典使用场景

WebQA数据集在开放域事实型问答系统中扮演了重要角色，尤其是在基于神经网络的问答模型开发与评估中。该数据集通过提供大量真实世界中的问题和证据，使得研究者能够在接近实际应用的环境中训练和测试模型。其经典使用场景包括利用序列标注技术进行答案生成，以及通过条件随机场（CRF）模型从证据中提取答案。

衍生相关工作

WebQA数据集的发布催生了一系列相关研究工作，特别是在神经问答模型的改进方面。例如，基于WebQA的序列标注模型启发了更多关于多证据处理和深度模型的研究。此外，该数据集还被用于探索多语言问答系统、多实体问答以及非事实型问答等扩展领域，推动了问答技术的进一步发展。

数据集最近研究