Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue

github2024-02-22 更新2024-05-31 收录

下载链接：

https://github.com/alexa/alexa-dataset-contextual-query-rewrite

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集探索使用自然语言作为跨代理通信的API，以消除学习或适应不同模式映射的需要。通过利用语言本身施加的句法/语义规律，作为跟踪对话状态的一种方式。

This dataset explores the use of natural language as an API for cross-agent communication, eliminating the need for learning or adapting to different mode mappings. By leveraging the syntactic/semantic rules imposed by language itself, it serves as a method for tracking dialogue states.

创建时间：

2019-03-19

原始信息汇总

Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue

数据集概述

目的：探索使用自然语言作为跨代理通信的API，以消除学习或适应多样式映射的需要，利用语言本身的句法/语义规律来跟踪对话状态。
来源：基于Stanford Dialogue Corpus，通过MTurk进行众包重写，以促进使用自然语言进行对话状态跟踪的研究。

数据集创建

原始数据：Stanford Dialogue Corpus。
重写过程：通过MTurk进行众包重写。
详细方法：参考论文Scaling Multi-Domain Dialogue State Tracking via Query Reformulation。

数据集格式

格式：JSON。
结构：
1. reformulation：包含数据集中的新增内容。
2. base_utt_idx：原始对话中被选为重写的语句索引。
3. flag：指示引用表达式的类别。
4. gold_slots：重写中使用的黄金标准槽位。
5. mturk_reformulations：来自MTurk的众包重写列表。
6. reformulated_utt：黄金重写。

许可证

类型：修改后的MIT许可证。
详情：参见LICENSE文件。

搜集汇总

数据集介绍

构建方式

Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue的构建基于斯坦福大学公开的多轮多领域任务导向对话数据集。通过亚马逊的Mechanical Turk平台，研究者们对原始对话进行了众包改写，旨在利用自然语言作为跨代理通信的接口，从而避免学习或适应多样化的模式映射。这一过程详细记录在相关研究论文中，确保了数据集的科学性和可靠性。

特点

该数据集以JSON格式存储，每条记录包含对话的改写信息。关键字段包括`reformulation`，其中记录了对话结束时的改写内容。具体字段如`base_utt_idx`标识原始对话中被改写的语句索引，`flag`表示指代表达的类别，`gold_slots`为改写中使用的标准槽位，`mturk_reformulations`则列出了众包改写的结果。这些特征使得该数据集在对话状态跟踪和自然语言接口研究中具有重要价值。

使用方法

使用该数据集时，研究者可以通过解析JSON格式的记录，提取`reformulation`字段中的改写信息，进而分析不同代理间的自然语言通信机制。数据集中的`mturk_reformulations`和`reformulated_utt`字段为对话改写的多样性和准确性提供了丰富的实验材料。通过结合原始对话和改写内容，研究者可以深入探讨自然语言在跨代理通信中的应用潜力，推动对话系统的进一步发展。

背景与挑战

背景概述

Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue 是由亚马逊Alexa团队于2019年发布，旨在解决多领域对话状态跟踪中的上下文理解问题。该数据集基于斯坦福大学公开的多轮多领域任务导向对话数据集，通过众包平台MTurk生成了对话的改写版本。其核心研究问题在于如何利用自然语言作为跨领域对话代理之间的接口，从而避免学习或适应不同领域特定的模式映射。这一创新方法通过语言本身的句法和语义规律来跟踪对话状态，显著提升了对话系统的灵活性和可扩展性。该数据集在自然语言处理和对话系统领域具有重要影响力，为多领域对话状态跟踪的研究提供了宝贵资源。

当前挑战

Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue 面临的挑战主要体现在两个方面。首先，在领域问题方面，多领域对话状态跟踪的复杂性在于不同领域代理使用各自特定的模式表示，如何在不依赖模式映射的情况下实现跨领域对话状态的理解和更新，是一个极具挑战性的问题。其次，在数据集构建过程中，如何确保众包生成的改写版本在语义和句法上的一致性，同时保持对话上下文的连贯性，也是一个技术难点。此外，数据集的构建需要大量的人工标注和验证，确保其质量和可靠性，这对资源投入和流程管理提出了较高要求。

常用场景

经典使用场景

Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue 数据集在对话系统领域中被广泛用于研究多轮对话状态跟踪。通过自然语言作为接口，该数据集帮助研究者理解对话上下文，并生成适应不同对话代理的查询重写。这种应用场景特别适用于多领域任务导向的对话系统，如订餐、打车和购物等。

解决学术问题

该数据集解决了多领域对话状态跟踪中的核心问题，即如何在不同对话代理之间传递和理解对话状态。通过引入自然语言作为API，避免了学习或适应不同领域特定模式映射的复杂性。这种方法不仅简化了对话状态跟踪的流程，还提高了跨领域对话系统的灵活性和可扩展性。

衍生相关工作

基于Contextual Query Rewrite (CQR) Dataset for Spoken Dialogue 数据集，研究者们提出了多种改进对话状态跟踪的模型和方法。例如，Rastogi等人提出的基于查询重写的多领域对话状态跟踪方法，显著提高了对话系统的性能。此外，该数据集还启发了更多关于自然语言作为API的研究，推动了跨领域对话系统的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集