Alex Context NLG Dataset

github2024-04-03 更新2024-05-31 收录

下载链接：

https://github.com/UFAL-DSG/alex_context_nlg_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个面向任务导向的口语对话系统的自然语言生成（NLG）数据集，涵盖了英语公共交通信息领域。每个数据实例包括前序上下文（用户话语）以及源意义表示和目标自然语言释义对。这允许NLG系统在训练时适应前序用户话语，即重用词汇和句法结构，从而可能提高输出的自然度和任务成功率。数据集通过CrowdFlower平台众包获得。

This is a natural language generation (NLG) dataset designed for task-oriented spoken dialogue systems, focusing on the domain of public transportation information in English. Each data instance includes preceding context (user utterances) along with pairs of source meaning representations and target natural language paraphrases. This setup enables NLG systems to adapt to preceding user utterances during training, thereby reusing vocabulary and syntactic structures, which may enhance the naturalness of the output and the success rate of the task. The dataset was crowdsourced via the CrowdFlower platform.

创建时间：

2016-03-03

原始信息汇总

数据集概述

名称: Alex Context NLG Dataset

作者: Ondřej Dušek, Filip Jurčíček

许可: Creative Commons 4.0 BY-SA

发布: LINDAT

开发网站: GitHub

领域: 英语公共交通信息，专注于纽约市地铁站的公交或地铁运输。

内容: 包含1859个实例，每个实例包括：

context_utt: 上下文用户 utterance
context_freq: 上下文 utterance 的频率
context_parse: 上下文 utterance 的 SLU 解析
response_da: 响应语义（对话行为）
response_nl: 响应自然语言 paraphrase，存储为 response_nl1, response_nl2, response_nl3

格式: CSV 和 JSON，使用 UTF-8 编码。

特点:

允许 NLG 系统适应用户 utterance，提高输出自然度和任务成功率。
使用 CrowdFlower 平台进行众包收集。

对话行为格式: 遵循 Alex 对话行为格式，包括 act types 如 inform, request 等，以及 slots 如 from_stop, to_stop 等。

限制:

ampm 槽可能包含 am/pm 或白天指示，需注意不同行为。
num_transfers 槽使用值 0, 1, 2，需适应具体值。
alternative 槽在值为数字时进行 delexicalization。

开发: 使用 Alex spoken dialogue systems framework 和相关工具进行数据收集和处理。

引用

如使用此数据集，请引用以下论文：

Ondřej Dušek and Filip Jurčíček: A Context-aware Natural Language Generation Dataset for Dialogue Systems. In: RE-WOCHAT, LREC, Portorož 2016.

搜集汇总

数据集介绍

构建方式

Alex Context NLG Dataset的构建过程基于众包平台CrowdFlower，通过收集用户在任务导向型对话系统中的自然语言表达，结合上下文信息（用户话语）和语义表示（对话行为），生成了包含1859个实例的数据集。每个实例包括用户上下文话语、语义解析以及自然语言回应的多种变体。数据集的构建过程中，使用了Alex对话系统框架进行数据预处理和任务生成，并通过手动检查和后处理确保数据质量。

特点

该数据集的特点在于其上下文感知能力，每个实例不仅包含语义表示和自然语言回应，还记录了用户的前序话语，使得自然语言生成系统能够适应用户的表达方式，提升输出的自然度和任务成功率。数据集涵盖了纽约市公共交通领域，用户可以通过对话查询公交或地铁的出发时间、距离、到达时间等信息。此外，数据集提供了去词汇化和词汇化两种版本，便于不同研究需求的使用。

使用方法

使用Alex Context NLG Dataset时，研究人员可以通过CSV或JSON格式加载数据，每个实例包含上下文话语、语义解析和自然语言回应的多种变体。数据集适用于训练和评估上下文感知的自然语言生成模型，特别是在任务导向型对话系统中。研究人员可以根据需要将数据集划分为训练集、开发集和测试集，并通过对比实验结果验证模型的性能。此外，数据集的使用需遵循Creative Commons 4.0 BY-SA许可，并在研究中引用相关论文。

背景与挑战

背景概述

Alex Context NLG Dataset是由Ondřej Dušek和Filip Jurčíček于2016年创建的，专注于任务导向型对话系统中的自然语言生成（NLG）领域。该数据集涵盖了英语公共交通信息领域，包含了用户的前置语境（用户话语）以及每个数据实例（源语义表示和目标自然语言释义对）。通过这种方式，训练在该数据集上的NLG系统能够适应用户的前置话语，从而提升生成文本的自然度和任务成功率。该数据集通过CrowdFlower平台进行众包收集，并在LREC和SIGDIAL等国际会议上发表了相关研究成果，对对话系统的自然语言生成研究产生了重要影响。

当前挑战

Alex Context NLG Dataset在构建和应用过程中面临多重挑战。首先，该数据集旨在解决任务导向型对话系统中自然语言生成的语境适应问题，即如何使生成的文本在语义和句法上与用户的前置话语保持一致。这一问题的复杂性在于需要捕捉用户话语的细微差异，并生成与之匹配的自然语言响应。其次，在数据集构建过程中，众包数据的质量控制是一个关键挑战。尽管通过CrowdFlower平台收集了多个释义，但仍需手动检查和修正错误，以确保数据的准确性和一致性。此外，数据集的去词汇化处理也带来了技术挑战，特别是在处理时间表达和复数形式时，需要确保生成的文本在填充具体值后仍保持流畅性和自然度。

常用场景

经典使用场景

Alex Context NLG Dataset 主要用于任务导向型对话系统中的自然语言生成（NLG）研究，特别是在公共交通信息领域。该数据集通过提供用户的前序对话上下文，使得生成的响应能够更好地适应用户的语言风格和句法结构，从而提升对话的自然度和任务成功率。

衍生相关工作

基于 Alex Context NLG Dataset，研究者们开展了多项经典工作，如上下文感知的自然语言生成模型研究。这些工作不仅验证了数据集的有效性，还推动了任务导向型对话系统领域的技术进步，为后续的研究提供了宝贵的经验和参考。

数据集最近研究