tuetschek/e2e_nlg

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/tuetschek/e2e_nlg

下载链接

链接失效反馈

资源简介：

E2E数据集用于训练端到端的数据驱动自然语言生成系统，特别是在餐厅领域。该数据集比该领域常用的现有数据集大十倍。E2E数据集提出了新的挑战：其人类参考文本显示出更多的词汇丰富性和句法变化，包括话语现象；从该集合生成需要内容选择。因此，从该数据集中学习有望产生更自然、更多样化且较少模板化的系统话语。

提供机构：

tuetschek

原始信息汇总

数据集概述

数据集名称

名称: End-to-End NLG Challenge
别名: E2E

数据集基本信息

语言: 英语 (en)
许可证: cc-by-sa-4.0
多语言性: 单语
大小: 10K<n<100K
源数据: 原始数据
任务类别: text2text-generation
任务ID: 无
标签: meaning-representation-to-text

数据集结构

特征:
- meaning_representation: 字符串类型，包含餐厅信息的槽和值。
- human_reference: 字符串类型，描述餐厅信息的人类参考文本。
数据分割:
- 训练集: 42061个实例，9435824字节。
- 验证集: 4672个实例，1171723字节。
- 测试集: 4693个实例，1320205字节。
- 总下载大小: 11812316字节
- 数据集总大小: 11927752字节

数据集创建

注释创建者: 众包
语言创建者: 众包
初始数据收集和标准化: 使用CrowdFlower平台，遵循Novikova et al. (2016)进行质量控制。
注释过程: 使用图片作为刺激，以产生更自然、信息丰富和措辞良好的参考文本。

使用数据集的考虑

支持的任务: 从意义表达到文本的文本生成，用于餐厅领域的描述生成。
评估指标: BLEU, NIST, METEOR, ROUGE-L, CIDEr
基线模型: TGen模型，具体分数如下:

指标分数

BLEU 0.6593

NIST 8.6094

METEOR 0.4483

ROUGE_L 0.6850

CIDEr 2.2338

附加信息

数据集维护者: @lhoestq
引用信息: 见README文件中的引用格式。

搜集汇总

数据集介绍

构建方式

E2E数据集的构建，是依托于CrowdFlower平台进行的众包数据采集，经过质量控制流程，使用图片作为刺激物以获取更为自然、信息丰富且表述更好的参考文本。数据集包含meaning_representation和human_reference两个字段，分别代表意义表示和对应的自然语言描述。数据被划分为训练集、验证集和测试集，确保各集合中意义表示的唯一性，并保持数据长度分布的相似性。

使用方法

使用该数据集时，用户可以从HuggingFace的官方库中下载。数据集支持文本到文本生成的任务，特别是从意义表示到文本的生成。用户可以根据自身的模型训练需求，利用训练集进行模型训练，验证集进行参数调优，测试集进行性能评估。性能评估通常采用BLEU、NIST、METEOR、ROUGE-L和CIDEr等指标。

背景与挑战

背景概述

在自然语言生成（NLG）领域，E2E数据集的创建标志着对端到端生成系统的训练与发展的重要贡献。该数据集由Ondřej Dušek、Jekaterina Novikova和Verena Rieser等于2017年提出，旨在推动餐厅领域的数据驱动型自然语言生成系统的训练。相较于当时常用的数据集，E2E数据集的规模大了十倍，提供了更为丰富的词汇和句法变体，包括话语现象。该数据集的核心研究问题是提高生成文本的自然性、多样性和非模板化程度。E2E数据集的发布在学术界产生了广泛影响，为相关领域的研究提供了宝贵的资源。

当前挑战

E2E数据集在构建和应用过程中面临多项挑战。首先，数据集要求生成的文本展示出更多的词汇和句法多样性，这要求模型在内容选择上具备更高的能力。其次，构建过程中，数据集的收集和注释需要确保质量，使用了CrowdFlower平台进行数据收集，并依据Novikova等人的方法进行了质量控制。此外，数据集在多方面的应用中还可能面临社会影响、偏见和其他局限性等问题，这些都需要在使用数据集时进行深入考虑和讨论。

常用场景

经典使用场景

在自然语言生成领域，tuetschek/e2e_nlg数据集被广泛用于训练端到端的自然语言生成系统。其经典使用场景在于，通过将餐厅领域的meaning representation（含义表示）转化为自然语言描述，系统可以生成更为自然、多样且非模板化的表述，进而提升机器生成的文本质量。

解决学术问题

该数据集解决了自然语言生成中如何从抽象的语义表示生成具体、丰富且符合人类表达习惯的文本问题。它通过提供大量的meaning representation与对应的人类参考文本，使得研究者能够训练模型以理解和转换复杂的语义信息，从而推动自然语言生成技术的进步。

实际应用

在实际应用中，tuetschek/e2e_nlg数据集可以用于开发智能对话系统，如餐厅预订助手，能够根据用户输入的语义信息生成自然流畅的回复。此外，它还可以应用于机器翻译、内容摘要等需要文本转换的领域。

数据集最近研究

指标	分数
BLEU	0.6593
NIST	8.6094
METEOR	0.4483
ROUGE_L	0.6850
CIDEr	2.2338