E2E dataset

github2023-12-21 更新2024-05-31 收录

下载链接：

https://github.com/tuetschek/e2e-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

E2E数据集是一个用于训练端到端、数据驱动的自然语言生成系统的新数据集，专注于餐厅领域，其规模是现有常用数据集的十倍。该数据集的人类参考文本展示了更多的词汇丰富性和句法变异，包括话语现象，生成此数据集需要内容选择。学习此数据集有望产生更自然、多样且不那么模板化的系统话语。

The E2E dataset is a novel dataset designed for training end-to-end, data-driven natural language generation systems, with a focus on the restaurant domain. It is ten times larger than existing commonly used datasets. The human reference texts in this dataset exhibit greater lexical richness and syntactic variation, including discourse phenomena, and the generation of this dataset requires content selection. Learning from this dataset is expected to produce system utterances that are more natural, diverse, and less templated.

创建时间：

2018-01-24

原始信息汇总

数据集概述

数据集名称

E2E Challenge Dataset

作者

Jekaterina Novikova, Ondrej Dusek, Verena Rieser

下载链接

下载链接

描述

该数据集用于训练端到端的、数据驱动的自然语言生成系统，专注于餐厅领域。
数据集规模是现有常用数据集的十倍。
数据集挑战包括：
1. 人类参考文本显示更多的词汇丰富性和句法变异，包括话语现象。
2. 需要进行内容选择。

数据集内容

文件
- trainset.csv – 训练集
- devset.csv – 开发集
- testset.csv – 挑战测试集（仅意义表示）
- testset_w_refs.csv – 评估测试集，包含参考自然语言语句
CSV数据字段
- mr – 文本意义表示（MR）
- ref – 对应的自然语言语句（人类参考）
- 多个参考语句对应一个MR。

引用信息

引用论文：The E2E Dataset: New Challenges for End-to-End Generation

许可证

遵循Creative Commons 4.0 Attribution-ShareAlike license (CC4.0-BY-SA)。

搜集汇总

数据集介绍

构建方式

E2E数据集专为餐厅领域的端到端自然语言生成系统设计，其构建过程注重数据的多样性与复杂性。数据集通过收集丰富的语义表示（MR）及其对应的人类参考文本（ref），确保每个语义表示对应多个自然语言表达，从而增强模型的泛化能力。数据集的规模是同类数据集的十倍，涵盖了更广泛的词汇和句法变化，包括话语现象，为自然语言生成任务提供了更具挑战性的训练环境。

特点

E2E数据集的特点在于其高度的多样性和复杂性。数据集中的参考文本展现了丰富的词汇选择和句法变化，避免了传统数据集中常见的模板化表达。此外，数据集的语义表示与自然语言表达之间存在一对多的映射关系，这要求模型在生成过程中进行内容选择，从而生成更加自然和多样化的文本。这种设计使得E2E数据集成为评估和改进自然语言生成系统的理想选择。

使用方法

E2E数据集的使用方法较为直观，用户可通过下载提供的ZIP文件获取完整数据集。数据集包含训练集、开发集和测试集，其中测试集分为仅包含语义表示的部分和包含参考文本的部分。用户可通过加载CSV文件获取语义表示及其对应的自然语言表达，并利用这些数据进行模型的训练与评估。数据集的引用格式和相关论文信息也已在README文件中提供，便于用户在研究中使用并引用该数据集。

背景与挑战

背景概述

E2E数据集由Jekaterina Novikova、Ondrej Dusek和Verena Rieser于2017年创建，旨在为餐厅领域的端到端自然语言生成系统提供训练数据。该数据集在自然语言生成领域具有重要影响力，其规模是现有常用数据集的十倍，显著提升了数据驱动的自然语言生成系统的训练效果。E2E数据集的核心研究问题在于如何生成更具词汇丰富性和句法多样性的自然语言文本，同时要求系统具备内容选择能力。该数据集在E2E自然语言生成挑战赛中被广泛应用，推动了相关领域的研究进展。

当前挑战

E2E数据集在解决自然语言生成问题的过程中面临多重挑战。首先，其参考文本展现了更高的词汇多样性和句法变化，包括复杂的语篇现象，这对生成模型的表达能力提出了更高要求。其次，生成过程中需要从输入的意义表示中选择相关内容，增加了模型的复杂性。此外，构建该数据集时，研究人员需确保数据的多样性和自然性，避免生成模板化的文本，这对数据收集和标注提出了更高的标准。这些挑战共同推动了自然语言生成技术的进步，但也为研究者带来了新的难题。

常用场景

经典使用场景

E2E数据集在自然语言生成（NLG）领域中被广泛用于训练和评估端到端的数据驱动系统。特别是在餐厅领域，该数据集通过提供丰富的语义表示和多样化的自然语言参考文本，帮助研究者开发出更具自然性和多样性的语言生成模型。其经典使用场景包括生成餐厅推荐、菜单描述等任务，这些任务要求模型能够从结构化数据中提取关键信息并生成流畅的自然语言文本。

衍生相关工作

E2E数据集自发布以来，催生了许多经典研究工作。例如，基于该数据集的E2E NLG Challenge吸引了全球研究团队的参与，推动了多种先进生成模型的发展，如基于Transformer的模型和强化学习方法。这些研究不仅提升了生成系统的性能，还为自然语言生成领域提供了新的研究方向。此外，该数据集还被用于跨领域研究，如多模态生成和低资源语言生成，进一步扩展了其学术影响力。

数据集最近研究