WebQA

arXiv2025-09-30 收录

下载链接：

https://webqna.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多跳、多模态的问答对，其中每个问题需要1-2张图片或1-2段文本信息来回答。答案以自由句式呈现。评估指标包括用于检索准确性的F1分数以及基于BARTScore的答案质量综合指标QA-FL和QA-Acc。该任务为多模态问答。

This dataset consists of multi-hop, multimodal question-answer pairs, where each question requires 1 to 2 images or 1 to 2 text segments to answer. The answers are presented in free-form sentences. The evaluation metrics include the F1 score for retrieval accuracy, as well as the comprehensive answer quality metrics QA-FL and QA-Acc based on BARTScore. This task is multimodal question answering.

搜集汇总

数据集介绍

构建方式

在开放领域事实型问答系统的发展过程中，构建大规模真实世界数据集是推动技术进步的关键。WebQA数据集的构建过程体现了这一理念，其数据来源于百度知道等社区问答网站，确保了问题的真实性与多样性。通过搜索引擎以问题为查询词，从互联网检索相关网页，并从中提取文本片段作为候选证据。随后，采用人工标注方式对证据进行筛选与验证，标注者需判断证据是否足以独立回答问题，仅保留至少两位标注者达成一致的证据。训练集为每个问题提供前十位排序的证据进行标注，而验证集与测试集则提供主要正面证据及额外正面证据用于特征计算，同时包含自动检索的负面证据以模拟真实场景。

特点

WebQA数据集在开放领域问答研究中展现出显著特点，其规模宏大，包含超过42,000个问题及556,000条证据，远超同期多数真实世界问答数据集。所有问题均源自真实用户的日常提问，涵盖单实体事实型问答，确保了数据与现实应用场景的高度契合。数据集不仅提供问题与答案，还为每个问题配备多条人工标注的证据，支持证据排序与答案句子选择等研究任务。此外，数据集中包含大量自动检索的负面证据，为模型训练引入了噪声数据，有助于提升系统在复杂环境下的鲁棒性。

使用方法

在神经问答系统的研究中，WebQA数据集为模型训练与评估提供了重要平台。使用该数据集时，研究者通常将问答任务形式化为序列标注问题，即给定问题与证据文本，模型需标注证据中每个词汇是否属于答案的起始、内部或外部。数据集支持基于词汇与字符的输入方式，允许探索不同表示方法对性能的影响。评估过程采用精确率、召回率与F1值等指标，并区分严格匹配与模糊匹配两种模式，以适应答案表达形式的多样性。数据集中包含的标注证据与检索证据分别对应纯净与噪声环境，使模型能够在不同设置下进行测试，全面衡量其实际应用潜力。

背景与挑战

背景概述

在自然语言处理领域，开放域事实型问答系统的发展长期受限于大规模真实世界数据集的匮乏。为应对这一挑战，百度深度学习研究院的研究团队于2016年推出了WebQA数据集，该数据集包含超过4.2万个问题与55.6万条证据文本，全部来源于真实用户的日常提问与网络检索内容。其核心研究目标在于为神经问答模型的训练与评估提供高质量、贴近实际应用场景的语料资源，从而推动问答系统在语义理解、推理能力等方面的技术进步。该数据集的建立显著填补了当时中文开放域问答数据规模的空白，为后续相关研究提供了重要的基准支撑。

当前挑战

WebQA数据集旨在解决开放域事实型问答任务，其核心挑战在于如何从非结构化文本证据中精准定位并抽取答案实体。具体而言，该任务要求模型克服语义歧义、词汇多样性以及答案表述形式不一致等难题。在数据集构建过程中，研究团队面临的主要困难包括：确保大规模人工标注的质量与一致性；从网络海量信息中筛选并验证高质量证据文本；以及设计能够有效模拟真实用户提问分布的数据采集方法，避免因数据偏差影响模型的泛化性能。

常用场景

经典使用场景

在开放域事实型问答系统研究中，WebQA数据集常被用于训练和评估端到端的神经序列标注模型。该数据集包含超过4.2万个真实用户提出的问题及55.6万条相关证据文本，为模型提供了丰富的上下文信息。研究者通常利用这些数据，通过条件随机场与长短时记忆网络结合的方法，直接从证据文本中标注出答案片段，从而避免了传统方法中昂贵的softmax计算或额外候选答案生成模块的需求。

实际应用

在实际应用中，WebQA数据集支撑了智能客服、搜索引擎增强以及教育辅助工具的开发。基于该数据集训练的模型能够从海量网络文本中精准提取答案，满足用户对快速、准确信息检索的需求。例如，在社区问答平台中，系统可自动分析用户问题并从相关文档中定位答案，大幅提升服务效率与用户体验，体现了自然语言处理技术在现实场景中的实用价值。

衍生相关工作

WebQA数据集的发布催生了一系列围绕序列标注和神经问答的经典研究。例如，后续工作在此基础上探索了多证据融合机制、深层残差网络结构以及字符级输入处理技术，进一步优化了答案抽取的精度与效率。同时，该数据集也促进了跨语言问答、多跳推理等延伸方向的发展，为构建更复杂、更智能的对话系统奠定了数据基础与模型范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集