Contextual Query Rewrite (CQR)

Name: Contextual Query Rewrite (CQR)
Creator: 新墨西哥大学
Published: 2019-04-01 09:37:24
License: 暂无描述

arXiv2019-04-01 更新2024-06-21 收录

下载链接：

https://github.com/alexa/alexa-dataset-contextual-query-rewrite

下载链接

链接失效反馈

官方服务：

资源简介：

Contextual Query Rewrite (CQR) 数据集是由新墨西哥大学、约翰霍普金斯大学和亚马逊Alexa AI团队共同创建的，旨在解决多领域任务导向的口语对话系统中的指称表达解析问题。该数据集扩展自斯坦福对话语料库，包含约3000个对话，涉及天气、日程安排和导航三个领域。创建过程中，通过众包方式扩展了语料库，并用于训练端到端的对话系统。CQR数据集的应用领域主要集中在提高对话系统对用户意图的理解，特别是在多轮对话中解析指称表达，从而提升用户体验。

The Contextual Query Rewrite (CQR) dataset was co-created by the University of New Mexico, Johns Hopkins University, and the Amazon Alexa AI team, aiming to address the referential expression parsing issue in multi-domain task-oriented spoken dialogue systems. As an extension of the Stanford Dialogue Corpus, this dataset contains approximately 3,000 dialogues across three domains: weather, scheduling, and navigation. During its construction, the corpus was expanded via crowdsourcing and has been employed to train end-to-end dialogue systems. The primary applications of the CQR dataset focus on enhancing dialogue systems' understanding of user intentions, particularly in parsing referential expressions during multi-turn dialogues, thereby improving user experience.

提供机构：

新墨西哥大学

创建时间：

2019-03-28

搜集汇总

数据集介绍

构建方式

Contextual Query Rewrite (CQR) 数据集是基于斯坦福对话语料库（Eric et al., 2017a）扩展而来，专注于多领域任务型口语对话系统中的指代消解问题。构建过程遵循多轮、直观、可解释和可学习的原则，首先由研究人员手动识别对话中的基础话语，并为其添加相关槽值，生成黄金标准改写。随后，通过众包平台收集每个对话的五种不同改写版本，以增加语言多样性。众包工作者被提供高亮的基础话语和相关的槽值列表，鼓励使用个性化策略进行改写，最终在两周内收集了超过一万条有效提交，形成了包含黄金标准与众包改写的丰富语料库。

特点

该数据集的核心特点在于将指代消解任务重新定义为查询改写任务，无需显式追踪对话状态，即可通过生成单轮自然语言查询来消解跨轮指代。数据集涵盖了零指代、代词指代、地点指代和名词指代等多种指代类型，其中零指代占比最高。黄金标准改写平均包含约4个槽值，而众包改写则展现了更高的句法和词汇多样性，BLEU分数较低但F1分数较高，表明语义一致性良好。此外，数据集还提供了每个指代类型的标注标志，便于细粒度分析。

使用方法

该数据集适用于训练端到端的对话系统，通过序列到序列模型实现查询改写。典型用法是将多轮对话历史与当前用户话语作为输入，生成消除歧义的单轮改写查询。实验中采用OpenNMT框架训练模型，并利用去词汇化处理将槽值替换为规范类型标签，以提升泛化能力。数据集支持两种训练模式：仅使用黄金标准改写，或结合众包改写以增加数据多样性。评估指标包括BLEU、F1分数以及槽值携带率，后者反映了任务中约67%的槽值需要从上下文中继承，体现了任务的复杂性。

背景与挑战

背景概述

在任务型对话系统的演进历程中，指代消解作为实现多轮交互连贯性的核心瓶颈，长期困扰着学术界与工业界。为应对这一挑战，由Michael Regan、Pushpendre Rastogi、Arpit Gupta及Lambert Mathias等研究人员于2019年联合提出了Contextual Query Rewrite (CQR)数据集，该工作由新墨西哥大学、约翰霍普金斯大学及亚马逊Alexa AI团队共同完成。CQR数据集以斯坦福对话语料库为基础，通过创新的查询重写范式，将复杂的指代消解任务转化为自然语言查询的改写问题——系统无需显式追踪对话状态，即可将含指代表达的用户话语重构为包含全部相关槽值的单轮查询。这一突破性设计不仅规避了跨领域模式转换的困境，更使得下游语言理解系统能够以最优状态处理单轮查询，为多领域任务型对话系统提供了可扩展的解决方案。

当前挑战

CQR数据集面临的核心挑战体现在双重维度。在领域问题层面，多轮对话中普遍存在的零指代、代词指代及地点指代等复杂指代现象，使得传统基于状态追踪的方法在跨领域场景下难以应对模式异构与数据稀疏的双重困境——特别是当对话平台中领域特定聊天机器人数量激增时，对话状态追踪模块的复杂度呈指数级增长。在数据集构建过程中，研究人员需在保持语义一致性的前提下，通过众包方式获取多样化改写，但实验数据显示：黄金标准改写平均包含4.03个槽值，而众包改写仅含3.20个，两者间0.823的槽值差异揭示了自然语言中完整指定实体信息的非直观性；同时，改写任务中67%的槽值需要从历史对话中传承，进一步凸显了该任务在信息筛选与语义保留之间的平衡难度。

常用场景

经典使用场景

在任务导向型多轮对话系统中，用户常通过省略、代词或零形回指等方式指代前文提及的实体，导致当前轮次语义模糊。Contextual Query Rewrite (CQR) 数据集的核心用途在于将包含指代表达的用户语句，结合对话历史重写为自包含的、无歧义的单轮查询。经典场景如导航对话中，用户询问“怎么走”后，系统需自动补全“去之前提到的咖啡店”这一隐含信息，CQR 通过将上下文中的槽值显式融入重写语句，使下游自然语言理解模块无需处理复杂指代关系，直接解析完整意图。该数据集覆盖天气、导航、日程三个领域，包含黄金标准与众包重写，为多领域对话系统提供了标准化的指代消解训练与评测基准。

衍生相关工作

CQR 数据集的提出催生了多项衍生研究。在模型层面，基于复制机制的序列到序列模型（如 OpenNMT）被用于学习从对话历史中抽取槽值并生成重写语句，黄金数据与扩展数据分别达 0.838 和 0.897 的实体 F1 值。在方法层面，后续工作将 CQR 思想延伸至跨语言指代消解与更长对话历史的处理，探索了基于注意力的对话摘要与重写联合框架。此外，CQR 与基于槽值携带（Slot Carryover）的方法形成互补，推动了对话状态追踪从显式建模向隐式重写的范式转变，为端到端任务型对话系统提供了更简洁、可扩展的解决方案。

数据集最近研究