ViGGO

Name: ViGGO
Creator: 加州大学圣克鲁兹分校自然语言与对话系统实验室
Published: 2019-10-27 04:18:59
License: 暂无描述

arXiv2019-10-27 更新2024-06-21 收录

下载链接：

https://nlds.soe.ucsc.edu/viggo

下载链接

链接失效反馈

官方服务：

资源简介：

ViGGO数据集是由加州大学圣克鲁兹分校自然语言与对话系统实验室创建的，包含7000个关于视频游戏的结构化意义表示（MRs）和众包参考语句对。该数据集旨在支持开放领域对话系统，通过提供9种可泛化的对话行为类型，增强数据多样性和适用性。数据集内容涵盖超过100种视频游戏，数据来源包括IGDB和GiantBomb等在线视频游戏数据库。创建过程中，通过Amazon Mechanical Turk平台众包生成参考语句，并通过后处理确保数据质量。ViGGO数据集的应用领域主要集中在提升自然语言生成模型的对话能力和多样性，特别是在视频游戏领域的对话系统中。

The ViGGO dataset was developed by the Natural Language and Dialogue Systems Laboratory at the University of California, Santa Cruz. It includes 7000 pairs, each composed of a structured meaning representation (MR) and a crowdsourced reference utterance, focused on video games. This dataset aims to support open-domain dialogue systems, enhancing data diversity and applicability by providing 9 generalizable types of dialogue acts. Its content covers over 100 video games, with data sourced from online video game databases including IGDB and GiantBomb. During its creation, reference utterances were crowdsourced via the Amazon Mechanical Turk platform, and post-processing was conducted to ensure data quality. The main application areas of the ViGGO dataset focus on improving the dialogue capabilities and diversity of natural language generation models, particularly for dialogue systems in the video game domain.

提供机构：

加州大学圣克鲁兹分校自然语言与对话系统实验室

创建时间：

2019-10-27

搜集汇总

数据集介绍

构建方式

在自然语言生成领域，数据集的构建方式直接影响模型的训练效果。ViGGO数据集的构建过程体现了严谨的设计理念，其核心在于通过结构化方式生成意义表示，并借助众包平台获取高质量的自然语言表述。研究团队首先从IGDB和GiantBomb两大游戏数据库中提取了超过100款电子游戏的属性信息，并以此为基础生成了2300个结构化的意义表示。随后，通过亚马逊众包平台，经过筛选的标注者为每个意义表示撰写了三条自然语言表述，最终形成了包含6900对数据的高质量平行语料库。为确保数据质量，研究团队实施了严格的后处理流程，包括使用正则表达式和启发式规则对表述进行标准化处理，修正拼写错误、语法问题及缺失的槽位提及，从而在众包数据中实现了罕见的清洁度。

特点

ViGGO数据集在自然语言生成领域展现出独特的设计特点。该数据集专注于电子游戏这一新颖且富有潜力的对话领域，突破了传统任务型对话数据集的局限。其核心特征在于引入了九种可泛化的对话行为类型，如提供信息、确认、表达观点等，这些行为类型覆盖了开放域对话中常见的交互模式，显著增强了数据集的会话性和多样性。与仅包含单一对话行为的数据集相比，ViGGO通过均衡的对话行为分布，避免了数据倾斜问题，确保了模型能够学习到更丰富的语言表达方式。此外，数据集的槽位设计涵盖了布尔型、数值型、标量型、类别型和列表型五种类型，其中列表型槽位允许包含多个离散值，这进一步增加了语言生成的复杂性和自然性。

使用方法

ViGGO数据集为训练面向开放域对话的自然语言生成模型提供了重要资源。在使用该数据集时，研究者通常遵循标准的机器学习流程，将数据划分为训练集、验证集和测试集，其比例约为7.5:1:1.5。为确保评估的挑战性，测试集经过精心设计，在去除游戏名称和开发者等词汇后，与训练集没有重叠的意义表示，同时保持了类似的槽位分布和对话行为比例。数据集中的每条意义表示对应三条参考表述，这为模型评估提供了多角度的对比基准，有助于更可靠地自动评估生成文本的质量。研究者可以利用该数据集训练序列到序列模型，如基于Transformer的架构，以学习从结构化数据到自然语言文本的映射。数据集的清洁性和会话性特点，使其特别适合用于探索小规模高质量数据下的模型训练，或作为跨领域迁移学习的源域数据。

背景与挑战

背景概述

在自然语言生成领域，深度学习技术的兴起催生了大量用于训练神经模型的并行语料库。然而，现有数据到文本生成的数据集多面向任务导向的对话系统，其多样性和通用性往往受限，且常因众包采集而包含较多噪声。2019年，加州大学圣克鲁兹分校自然语言与对话系统实验室的Juraj Juraska、Kevin K. Bowden和Marilyn Walker团队推出了ViGGO数据集，旨在解决开放域对话系统中数据到文本生成的挑战。该数据集聚焦于视频游戏领域，包含近7,000个结构化意义表示与对应众包参考话语的配对，引入了9种可泛化的对话行为类型，以支持更自然、更具对话性的语言生成模型。ViGGO的创建不仅丰富了数据到文本生成的研究范畴，还为开放域对话系统提供了高质量、多领域的训练资源，推动了自然语言生成技术在娱乐话题中的应用探索。

当前挑战

ViGGO数据集面临的挑战主要体现在两个方面：在领域问题层面，其核心目标是提升开放域对话系统中数据到文本生成的多样性与自然性，但现有神经模型往往难以充分学习大规模训练数据中的语言多样性，导致生成文本趋于模板化，缺乏对话所需的灵活性与丰富性。此外，视频游戏作为新兴对话领域，需处理多样化的属性组合（如布尔值、数值、列表等），这对模型准确理解并生成复杂语义结构提出了更高要求。在构建过程中，挑战主要源于众包数据采集的噪声控制与质量保障。尽管团队通过严格的后期处理（如启发式规则、正则表达式筛选及人工清理）提升了数据洁净度，但仍需应对拼写错误、语法不一致、信息遗漏或冗余等问题，同时确保不同对话行为类型的样本分布均衡，以维持数据集的代表性与实用性。

常用场景

经典使用场景

在开放域对话系统的自然语言生成研究中，ViGGO数据集被广泛应用于数据到文本生成任务的模型训练与评估。该数据集以其高质量、低噪声的众包话语和多样化的对话行为类型，为研究者提供了一个理想的实验平台，用于探索如何将结构化游戏信息转化为自然流畅的对话内容。其经典使用场景包括训练基于Transformer的序列到序列模型，以生成符合特定对话行为（如提供意见、确认信息、推荐游戏等）的响应，从而模拟人类在视频游戏话题上的多轮交流。

衍生相关工作

ViGGO数据集的发布衍生了一系列相关经典研究工作，主要集中在开放域自然语言生成的模型优化与评估方法上。许多研究以此为基础，探索了如何通过迁移学习将大规模数据集（如E2E）的知识迁移到小规模高质量数据上，以提高生成效率。此外，该数据集促进了对话行为分类、多轮对话管理以及基于拷贝机制的词汇处理技术的改进，以解决生成过程中专有名词和复杂槽位值的准确表达问题。这些工作进一步推动了数据到文本生成在多样化和人性化对话系统中的应用与发展。

数据集最近研究