five

tuetschek/e2e_nlg|自然语言生成数据集|文本生成数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/tuetschek/e2e_nlg
下载链接
链接失效反馈
资源简介:
E2E数据集用于训练端到端的数据驱动自然语言生成系统,特别是在餐厅领域。该数据集比该领域常用的现有数据集大十倍。E2E数据集提出了新的挑战:其人类参考文本显示出更多的词汇丰富性和句法变化,包括话语现象;从该集合生成需要内容选择。因此,从该数据集中学习有望产生更自然、更多样化且较少模板化的系统话语。

E2E数据集用于训练端到端的数据驱动自然语言生成系统,特别是在餐厅领域。该数据集比该领域常用的现有数据集大十倍。E2E数据集提出了新的挑战:其人类参考文本显示出更多的词汇丰富性和句法变化,包括话语现象;从该集合生成需要内容选择。因此,从该数据集中学习有望产生更自然、更多样化且较少模板化的系统话语。
提供机构:
tuetschek
原始信息汇总

数据集概述

数据集名称

  • 名称: End-to-End NLG Challenge
  • 别名: E2E

数据集基本信息

  • 语言: 英语 (en)
  • 许可证: cc-by-sa-4.0
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: text2text-generation
  • 任务ID: 无
  • 标签: meaning-representation-to-text

数据集结构

  • 特征:
    • meaning_representation: 字符串类型,包含餐厅信息的槽和值。
    • human_reference: 字符串类型,描述餐厅信息的人类参考文本。
  • 数据分割:
    • 训练集: 42061个实例,9435824字节。
    • 验证集: 4672个实例,1171723字节。
    • 测试集: 4693个实例,1320205字节。
    • 总下载大小: 11812316字节
    • 数据集总大小: 11927752字节

数据集创建

  • 注释创建者: 众包
  • 语言创建者: 众包
  • 初始数据收集和标准化: 使用CrowdFlower平台,遵循Novikova et al. (2016)进行质量控制。
  • 注释过程: 使用图片作为刺激,以产生更自然、信息丰富和措辞良好的参考文本。

使用数据集的考虑

  • 支持的任务: 从意义表达到文本的文本生成,用于餐厅领域的描述生成。
  • 评估指标: BLEU, NIST, METEOR, ROUGE-L, CIDEr
  • 基线模型: TGen模型,具体分数如下:
    指标 分数
    BLEU 0.6593
    NIST 8.6094
    METEOR 0.4483
    ROUGE_L 0.6850
    CIDEr 2.2338

附加信息

  • 数据集维护者: @lhoestq
  • 引用信息: 见README文件中的引用格式。
AI搜集汇总
数据集介绍
main_image_url
构建方式
E2E数据集的构建,是依托于CrowdFlower平台进行的众包数据采集,经过质量控制流程,使用图片作为刺激物以获取更为自然、信息丰富且表述更好的参考文本。数据集包含meaning_representation和human_reference两个字段,分别代表意义表示和对应的自然语言描述。数据被划分为训练集、验证集和测试集,确保各集合中意义表示的唯一性,并保持数据长度分布的相似性。
使用方法
使用该数据集时,用户可以从HuggingFace的官方库中下载。数据集支持文本到文本生成的任务,特别是从意义表示到文本的生成。用户可以根据自身的模型训练需求,利用训练集进行模型训练,验证集进行参数调优,测试集进行性能评估。性能评估通常采用BLEU、NIST、METEOR、ROUGE-L和CIDEr等指标。
背景与挑战
背景概述
在自然语言生成(NLG)领域,E2E数据集的创建标志着对端到端生成系统的训练与发展的重要贡献。该数据集由Ondřej Dušek、Jekaterina Novikova和Verena Rieser等于2017年提出,旨在推动餐厅领域的数据驱动型自然语言生成系统的训练。相较于当时常用的数据集,E2E数据集的规模大了十倍,提供了更为丰富的词汇和句法变体,包括话语现象。该数据集的核心研究问题是提高生成文本的自然性、多样性和非模板化程度。E2E数据集的发布在学术界产生了广泛影响,为相关领域的研究提供了宝贵的资源。
当前挑战
E2E数据集在构建和应用过程中面临多项挑战。首先,数据集要求生成的文本展示出更多的词汇和句法多样性,这要求模型在内容选择上具备更高的能力。其次,构建过程中,数据集的收集和注释需要确保质量,使用了CrowdFlower平台进行数据收集,并依据Novikova等人的方法进行了质量控制。此外,数据集在多方面的应用中还可能面临社会影响、偏见和其他局限性等问题,这些都需要在使用数据集时进行深入考虑和讨论。
常用场景
经典使用场景
在自然语言生成领域,tuetschek/e2e_nlg数据集被广泛用于训练端到端的自然语言生成系统。其经典使用场景在于,通过将餐厅领域的meaning representation(含义表示)转化为自然语言描述,系统可以生成更为自然、多样且非模板化的表述,进而提升机器生成的文本质量。
解决学术问题
该数据集解决了自然语言生成中如何从抽象的语义表示生成具体、丰富且符合人类表达习惯的文本问题。它通过提供大量的meaning representation与对应的人类参考文本,使得研究者能够训练模型以理解和转换复杂的语义信息,从而推动自然语言生成技术的进步。
实际应用
在实际应用中,tuetschek/e2e_nlg数据集可以用于开发智能对话系统,如餐厅预订助手,能够根据用户输入的语义信息生成自然流畅的回复。此外,它还可以应用于机器翻译、内容摘要等需要文本转换的领域。
数据集最近研究
最新研究方向
在自然语言生成(NLG)领域,End-to-End NLG Challenge数据集正引领着研究方向,旨在训练能够从意义表示直接生成自然语言描述的端到端系统。该数据集在餐厅领域具有十倍于常用数据集的规模,其挑战在于丰富词汇和句法变异,以及内容选择的需求。近期研究聚焦于提升系统的自然性、多样性和非模板化输出,以期为用户提供更加自然和个性化的描述。E2E数据集的基准测试结果和相关研究,为评估NLG系统的性能提供了重要依据,推动了该领域技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作