SearchQA

arXiv2025-09-30 收录

下载链接：

https://github.com/nyu-dl/dl4ir-searchqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为SearchQA，它基于一系列《危险边缘》节目的线索构建而成，包含了复杂的问题以及谷歌搜索结果前几条的相关片段。每个线索都与正确答案及一系列片段相关联，且用于答案跨度选择的环境仅限于前10个片段。该数据集规模宏大，包含了超过14万个问题/答案对和690万个片段；具体分为训练集99,820个例子，验证集13,393个例子，以及测试集27,248个例子。其任务是进行问题回答。

The dataset named SearchQA is constructed from clues sourced from a series of *Jeopardy!* episodes. It encompasses complex questions and relevant snippets extracted from the top-ranked results of Google searches. Each clue is associated with its correct answer and a set of snippets, with the context for answer span selection limited to the top 10 snippets. This is a large-scale dataset containing over 140,000 question-answer pairs and 6.9 million snippets. Specifically, it is split into 99,820 training examples, 13,393 validation examples, and 27,248 test examples. The core task of this dataset is question answering.

搜集汇总

数据集介绍

构建方式

SearchQA数据集的构建始于从J! Archive爬取海量问答对，这些问答对源自知名电视节目《Jeopardy!》。为模拟真实问答场景中信息检索的噪声，研究者以每个问题为查询词，调用Google搜索引擎检索相关网页摘要。随后，通过严格清洗流程剔除包含节目播出日期、问题原文或‘Jeopardy!’等关键词的摘要，并手动过滤频繁出现且明确包含问答内容的URL。最终仅保留答案出现在检索摘要中且答案长度不超过三个词的问答对，形成包含超过14万对问答、每对平均配有49.6条摘要的庞大数据集。

特点

SearchQA的核心特点在于其贴近真实世界的噪声环境。与传统闭域问答数据集不同，其上下文并非精心撰写的文章，而是搜索引擎返回的、包含大量无关或语义不完整摘要的杂乱集合，这迫使模型必须学会在信息洪流中甄别关键证据。此外，数据集附带丰富的元数据，如摘要来源URL、问题类别、播出日期等，为探索问答系统的泛化能力与跨时间域迁移提供了独特视角。

使用方法

SearchQA适用于训练和评估基于检索的机器阅读理解模型。使用时可预定义训练、验证和测试集划分，其中验证与测试集选自晚于训练集的年份，以检验模型对未知未来问题的泛化能力。模型需从每个问题对应的多段噪声摘要中定位答案，基线方法包括基于TF-IDF的词频统计策略和基于注意力机制的序列阅读器。研究者还可利用元数据设计更复杂的模型，如结合摘要来源可靠性或时间信息来提升答案准确性。

背景与挑战

背景概述

在机器阅读理解与问答系统研究领域，早期数据集如SQuAD和CNN/DailyMail通常从已存在的文本中提取问题与答案，确保了上下文的整洁与相关，却忽略了真实世界中问答系统需面对的信息检索噪声。为弥合这一鸿沟，纽约大学数据科学中心的Matt Dunn、Levent Sagun等研究人员于2017年构建了SearchQA数据集。该数据集从J! Archive爬取超过14万对来自电视节目《Jeopardy!》的问题与答案，并利用Google搜索引擎为每个问题检索真实网页片段作为上下文，平均每对问答配有49.6个片段。SearchQA的独特之处在于其上下文源自商业搜索引擎的实时检索结果，包含了大量无关或语义不完整的噪声文档，更贴近实际问答系统的完整流程。该数据集提供了按年份划分的训练、验证与测试集，并附有URL等元数据，为问答系统的鲁棒性研究提供了重要基准，推动了领域从理想化封闭场景向真实噪声环境的演进。

当前挑战

SearchQA面临的核心挑战在于其构建理念所引入的固有复杂性。首先，在解决的领域问题层面，传统问答数据集假设上下文与问题高度相关且表述规范，而SearchQA要求模型在包含大量无关或语义混乱片段的噪声环境中定位答案，这考验了系统对信息检索噪声的鲁棒性，以及从冗余、不完整文本中抽取精确答案的能力。其次，在构建过程中，研究人员需应对搜索引擎黑箱带来的不可控性：Google的排序算法未知，需通过清洗步骤消除直接包含《Jeopardy!》播出日期、问题原文或“Jeopardy!”等关键词的片段，防止模型通过简单模式匹配作弊。此外，仅保留答案出现在上下文中的问答对，并过滤答案长度超过三个词的样本，以确保可计算性，但这一筛选可能引入偏差。最终，人类评估显示，即使是志愿者在噪声片段中作答，准确率也显著低于预期，而基线模型（如注意力求和阅读器）的表现与人类仍存在差距，凸显了该数据集作为真实场景基准的挑战性。

常用场景

经典使用场景

在机器阅读理解与问答系统的研究领域中，SearchQA数据集以其独特的构建范式脱颖而出。该数据集并非从已有文本中人工生成问答对，而是以来自Jeopardy!节目的真实问答对为起点，借助Google搜索引擎检索相关网页片段，从而为每个问题配备一组包含噪声的真实上下文。这一设计精准模拟了实际问答系统在信息检索阶段所面临的复杂环境——检索结果中既包含相关文档，也掺杂大量无关或语义不完整的片段。因此，SearchQA最经典的使用场景是作为闭域问答任务的基准测试平台，用于评估模型在噪声上下文中的答案抽取能力，尤其适用于检验模型对冗余与干扰信息的鲁棒性。

衍生相关工作

SearchQA的诞生催生了多项富有影响力的后续研究。在模型层面，研究者们基于其噪声上下文的特性，提出了多种改进的注意力机制与多文档阅读器，例如将文档排序与答案抽取联合优化的端到端模型，以及利用图神经网络对跨片段信息进行聚合的方法。在数据层面，该数据集启发了MS MARCO等更贴近真实用户查询的数据集的构建，后者进一步融合了人工标注的答案与Bing搜索引擎的检索结果。此外，SearchQA还推动了问答系统中“检索-阅读”两阶段范式的成熟，许多工作将其作为评估检索模块与阅读模块协同效果的基准，从而深化了学界对信息检索与机器理解交互作用的认知。

数据集最近研究