EventNarrative
收藏arXiv2022-04-14 更新2024-06-21 收录
下载链接:
https://www.kaggle.com/acolas1/eventnarration
下载链接
链接失效反馈官方服务:
资源简介:
EventNarrative是一个大规模的事件中心知识图谱到文本数据集,由佛罗里达大学计算机科学系创建。该数据集包含约220,000个图及其对应的自然语言文本,利用丰富的本体论,所有KG实体都与文本链接,并通过手动注释确认高质量数据。数据集旨在推动事件中心研究,并为研究人员提供一个定义良好、大规模的数据集,以更好地评估现有的和未来的知识图谱到文本模型。数据集内容涵盖多种事件类型,从体育赛季到社交媒体活动,关系包括位置、事件类型和开始/结束时间。创建过程中,首先从EventKG提取事件,然后为每个事件增加额外的对应Wikidata信息。数据集的应用领域包括事件描述和知识图谱到文本生成模型的评估。
EventNarrative is a large-scale event-centric knowledge graph-to-text dataset created by the Department of Computer Science at the University of Florida. This dataset contains approximately 220,000 graphs and their corresponding natural language texts. Leveraging a rich ontology, all knowledge graph (KG) entities are linked to their respective texts, and high-quality data is validated via manual annotations. This dataset aims to advance event-centric research and provide researchers with a well-defined, large-scale resource to better evaluate existing and future knowledge graph-to-text models. The dataset covers a diverse range of event types, spanning from sports seasons to social media campaigns, with relations including location, event type, and start/end times. In its creation process, events were first extracted from EventKG, and additional corresponding Wikidata information was then added to each event. Application scenarios of this dataset include event description and the evaluation of knowledge graph-to-text generation models.
提供机构:
佛罗里达大学计算机科学系
创建时间:
2021-10-30
搜集汇总
数据集介绍

构建方式
EventNarrative数据集的构建基于现有的开放世界知识图谱,特别是EventKG,它结合了Wikidata、DBpedia和YAGO中的事件图。为了丰富数据集,研究者从EventKG中提取事件,并利用Wikidata的SPARQL查询服务补充了事件的属性、对象和标签。此外,研究者还从维基百科中获取了事件文章的全文,以捕获事件的全部细节。为了将文本中的实体与知识图谱中的三元组匹配,研究者设计了一种实体匹配技术,该技术专门针对事件数据,但也适用于其他类型的数据。通过递归地丢弃句子和节点,直到所有剩余的句子至少包含2个实体,研究者生成了叙事知识图谱。最终,EventNarrative包含大约224,428个KG-文本对。
特点
EventNarrative数据集的主要特点包括:1)大规模:包含大约224,428个KG-文本对,比现有的最大平行数据集大6倍;2)事件驱动:专注于事件驱动的知识图谱,涵盖了从体育赛季到社交媒体运动的7000多种事件类型;3)丰富的本体:利用了一个丰富的本体,所有的KG实体都与文本相关联;4)高数据质量:通过人工注释确认数据质量高,实体和关系与叙事紧密耦合。此外,EventNarrative的数据生成框架是自动化的,因此可以重新组装和扩展,以包含其他本体论知识图谱,如DBpedia或YAGO。
使用方法
EventNarrative数据集可用于促进事件驱动的条件文本生成研究。研究者可以在该数据集上训练和评估现有的和未来的知识图谱到文本模型。为了帮助研究人员更好地理解数据集,研究者提供了详细的统计分析和定性分析结果。此外,研究者还评估了两种类型的基线模型,包括特定于图形到文本的模型和两种最先进的语言模型,以展示数据集的适用性。为了使用EventNarrative数据集,研究者需要下载数据集,并按照数据集中的说明进行操作,包括将数据集分割为训练集、验证集和测试集,以及设置适当的模型参数。
背景与挑战
背景概述
EventNarrative数据集的创建旨在解决知识图谱到文本生成领域中的数据缺乏问题。该数据集由来自公开的开放世界知识图谱的数据组成,由佛罗里达大学计算机科学系的Anthony Colas、Ali Sadeghian、Yue Wang和Daisy Zhe Wang等人于2022年4月14日提出。该数据集的主要研究问题是事件驱动的信息提取,并着重于事件驱动的知识图谱到文本生成。EventNarrative数据集利用丰富的本体,所有知识图谱实体都与文本链接,并通过手动注释确认了高质量的数据。该数据集的创建旨在推动事件驱动研究,并为研究人员提供一个明确定义的大规模数据集,以更好地评估现有的和未来的知识图谱到文本模型。
当前挑战
EventNarrative数据集面临的挑战包括:1)所解决的领域问题的挑战:知识图谱到文本生成领域的数据集通常规模较小,且缺乏与知识图谱紧密耦合的文本数据。EventNarrative数据集通过利用丰富的本体和自动化的实体匹配算法,解决了这一挑战。2)构建过程中所遇到的挑战:EventNarrative数据集的构建过程中,需要从多个数据源中提取事件信息,并进行实体匹配和知识图谱到文本的匹配。这些步骤涉及到复杂的数据处理和算法设计,需要克服技术上的困难。此外,由于事件数据的复杂性和多样性,构建一个全面且具有代表性的数据集也是一个挑战。
常用场景
经典使用场景
EventNarrative 数据集在知识图谱到文本生成任务中扮演着关键角色。它被广泛用于评估和训练各种自然语言生成模型,包括基于图转换器和预训练语言模型的模型。该数据集包含大约 230,000 个图和相应的自然语言文本,使其成为该领域规模最大的并行数据集之一。
实际应用
EventNarrative 数据集在实际应用中具有广泛的应用前景。它可以用于构建智能问答系统、自动摘要生成器、对话生成系统等。例如,该数据集可以用于训练模型,使其能够根据事件知识图谱生成关于特定事件的自然语言叙述,从而为用户提供更丰富的信息和更自然的交互体验。
衍生相关工作
EventNarrative 数据集的发布促进了知识图谱到文本生成领域的研究。基于该数据集,研究人员提出了许多新的模型和方法,例如 GraphWriter、BART 和 T5 等。这些模型在 EventNarrative 数据集上的表现证明了它们在知识图谱到文本生成任务中的有效性,并为该领域的研究提供了新的思路和方向。
以上内容由遇见数据集搜集并总结生成



