QUEST

Name: QUEST
Creator: 宾夕法尼亚大学
Published: 2023-05-31 13:11:21
License: 暂无描述

arXiv2023-05-31 更新2024-06-21 收录

下载链接：

https://github.com/google-research/language/tree/master/language/quest

下载链接

链接失效反馈

官方服务：

资源简介：

QUEST数据集由宾夕法尼亚大学和Google DeepMind共同创建，包含3357条自然语言查询，这些查询隐含了集合操作，如交集、并集和差集。数据集挑战模型匹配查询中的多个约束与文档中的相应证据，并正确执行各种集合操作。数据集通过半自动方式构建，使用维基百科类别名称，自动从单个类别生成查询，然后通过众包工作者进行改写和进一步验证自然性和流畅性。众包工作者还评估实体的相关性，并突出显示查询约束到文档文本的归属。数据集的应用领域包括分析检索系统在处理此类查询时的性能，旨在解决检索系统在处理复杂查询时的挑战。

The QUEST dataset was co-created by the University of Pennsylvania and Google DeepMind, comprising 3357 natural language queries that implicitly involve set operations such as intersection, union, and set difference. This dataset challenges models to match multiple constraints in the queries with corresponding evidence in documents and correctly execute various set operations. The dataset was constructed via a semi-automated pipeline: it first automatically generates queries from individual Wikipedia category names, then has crowdworkers rewrite the generated queries and further validate their naturalness and fluency. Additionally, crowdworkers evaluate the relevance of entities and highlight the alignment between query constraints and document text. The application scenarios of this dataset include analyzing the performance of retrieval systems when handling such queries, with the goal of addressing the challenges encountered by retrieval systems when processing complex queries.

提供机构：

宾夕法尼亚大学

创建时间：

2023-05-19

搜集汇总

数据集介绍

构建方式

在信息检索领域，处理隐含集合操作的查询一直是系统面临的重要挑战。QUEST数据集的构建采用了半自动化方法，以维基百科类别名称为基础构建单元查询。通过预定义模板组合交集、并集和差集等集合操作，生成包含复杂约束的查询结构。为确保查询的自然性与流畅性，研究团队引入众包机制对模板化查询进行改写与验证，通过多轮人工标注确保查询表达符合真实用户搜索习惯。同时，针对实体相关性标注，标注者基于文档文本证据对查询约束进行细粒度归因标注，形成具有可解释性的评估基准。

特点

该数据集的核心特征体现在其查询结构的复杂性与评估维度的全面性。所有查询均隐含集合操作逻辑，涵盖单约束、多约束组合及嵌套操作等多种模式，系统需同时处理语义匹配与逻辑推理双重任务。数据集覆盖影视、书籍、动植物四大领域，既包含通用搜索场景，也涉及专业科学检索需求，体现了领域多样性。每个查询对应至多20个实体文档，要求系统返回完整答案集合而非单一结果，这对检索系统的召回能力提出更高要求。标注数据包含文档级相关性判断与文本片段归因信息，为可解释检索研究提供了宝贵资源。

使用方法

在使用QUEST数据集进行检索系统评估时，需构建包含32万余个维基百科实体的文档库作为检索基础。系统接收自然语言查询后，需从整个文档库中检索出满足所有约束条件的实体集合。评估采用基于答案集合的F1分数作为核心指标，同时考察检索阶段与重排序阶段的协同性能。典型实验框架采用双编码器进行候选文档粗检索，再通过交叉注意力模型进行精细相关性分类。研究显示，当前系统在处理包含合取与否定操作的查询时表现显著不足，这为改进模型对复杂逻辑结构的理解能力指明了方向。数据集划分包含训练、验证与测试集，支持端到端检索系统的开发与评估。

背景与挑战

背景概述

QUEST数据集由宾夕法尼亚大学与Google DeepMind的研究团队于2022年联合创建，旨在探索信息检索系统处理隐含集合操作查询的能力。该数据集聚焦于用户通过自然语言表达复杂选择性信息需求的核心研究问题，例如“非矶鹬的滨鸟”或“在英国拍摄的科幻电影”这类隐含交集、并集或差集运算的查询。通过半自动化方式利用维基百科类别名称构建，并经过众包人员的转述与验证，QUEST涵盖了电影、书籍、动植物四大领域的3357条查询，每条查询映射至一组对应的维基百科实体文档。该数据集的推出填补了现有检索基准在复杂集合操作查询表征上的空白，为开发能够匹配查询约束与文档证据、并执行隐式集合运算的下一代检索系统提供了关键评估资源。

当前挑战

QUEST数据集所应对的核心领域挑战在于，使检索系统能够准确理解并执行自然语言查询中隐含的集合操作（如交集、并集、差集），从而从大规模文档集合中检索出满足所有约束条件的实体集合。构建过程中的主要挑战包括：其一，确保查询的自然性与流畅性，通过众包转述与验证来提升自动模板生成查询的质量；其二，解决维基百科类别映射的不完全性与证据缺失问题，部分实体文档可能缺乏足够证据来判定其与查询类别的相关性，需要通过众包进行精细化的相关性标注与证据归因；其三，控制答案集合的规模在可标注范围内（2-20个实体），以平衡标注可行性与查询的现实代表性。这些挑战共同塑造了数据集的构建逻辑与评估焦点。

常用场景

经典使用场景

在信息检索领域，QUEST数据集被广泛用于评估检索系统处理隐含集合操作查询的能力。该数据集通过精心设计的查询模板，模拟用户在实际搜索中表达复杂信息需求的情景，例如“非沙鹬的滨鸟”或“英国拍摄的科幻电影”。这些查询天然蕴含交集、并集和差集等逻辑操作，要求模型不仅匹配文档中的证据，还需准确执行隐含的集合运算。研究者通常利用QUEST测试双编码器和交叉注意力模型在处理多约束查询时的性能极限，特别是在面对否定和合取操作时的表现。

解决学术问题

QUEST数据集主要解决了信息检索中多约束查询与隐含集合操作的评估难题。传统检索基准如MSMarco和Natural Questions缺乏对复杂逻辑查询的系统性覆盖，而知识库问答又受限于结构化模式的完整性。QUEST填补了这一空白，使研究者能够量化模型在文档级推理和集合运算上的能力。该数据集通过人工标注的相关性标签和细粒度归因，为开发可解释的检索系统提供了关键数据支持，推动了自然语言理解与符号推理相结合的研究方向。

衍生相关工作

QUEST数据集催生了一系列关注复杂查询检索的研究工作。例如，RomQA数据集在并行工作中扩展了多约束查询的范畴，但采用基于句子的归因机制。后续研究探索了基于几何嵌入的集合操作建模方法，如Vilnis等人提出的概率框格度量。Min等人提出的多答案检索评估指标MRecall@K也被广泛应用于QUEST的评估框架。这些衍生工作共同推进了对自然语言中逻辑结构的表示学习，以及检索系统在开放域场景下的推理能力研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集