WebNLG Dataset

github2023-06-19 更新2024-05-31 收录

下载链接：

https://github.com/fuzihaofzh/webnlg-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库展示了WebNLG语料库的演变。每个文件夹包含相同的数据，格式为xml和json。数据集包括多个版本，如release_v2、release_v2_constrained、release_v1和webnlg_challenge_2017，每个版本都有详细的数据划分和覆盖的DBpedia类别。

本库荟萃了WebNLG语料库之演变历程。各子目录内蕴藏格式一致的xml与数据，旨在全面呈现。数据集涵盖多个版本，诸如release_v2、release_v2_constrained、release_v1以及webnlg_challenge_2017等，每一版均细致划分数据，并覆盖了DBpedia之各类别。

创建时间：

2018-10-02

原始信息汇总

WebNLG Dataset Summary

Data Releases

release_v2
- Latest release.
- Includes release_v1 and test data (seen categories) from the WebNLG challenge.
- Split into train/dev/test with equal representation of DBpedia categories and tripleset sizes.
- Includes tree shapes and types (sibling, chain, mixed) for each input RDF tree.
release_v2_constrained
- Contains the same data as release_v2.
- Split into train/dev/test with a more challenging constraint: no triple occurring in train/dev is present in test.
release_v1
- Matches Final Release (Larger Dataset) on the challenge website.
- Does not include test data (seen categories) from the challenge.
- No split into train/dev/test provided.
- Covers 15 DBpedia categories.
webnlg_challenge_2017
- Contains data used in the WebNLG Challenge 2017.
- Covers 10 DBpedia categories (partially for the City category).

Data Formats

Each folder contains the same data in two formats: xml and json.

Dataset Coverage

DBpedia Categories:
- release_v1: 15 categories
- webnlg_challenge_2017: 10 categories (partially for City)

Citation Information

For general use of the WebNLG corpus:

@InProceedings{gardent2017creating, author = "Gardent, Claire and Shimorina, Anastasia and Narayan, Shashi and Perez-Beltrachini, Laura", title = "Creating Training Corpora for NLG Micro-Planners", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", year = "2017", publisher = "Association for Computational Linguistics", pages = "179--188", location = "Vancouver, Canada", doi = "10.18653/v1/P17-1017", url = "http://www.aclweb.org/anthology/P17-1017" }
For use of release_v2_constrained:

@InProceedings{shimorina2018handling, author = "Shimorina, Anastasia and Gardent, Claire", title = "Handling Rare Items in Data-to-Text Generation", booktitle = "Proceedings of the 11th International Conference on Natural Language Generation", year = "2018", publisher = "Association for Computational Linguistics", location = "Tilburg, The Netherlands" }

License

CC BY-NC-SA 4.0

搜集汇总

数据集介绍

构建方式

WebNLG数据集的构建基于DBpedia知识库中的RDF三元组，旨在为自然语言生成（NLG）任务提供丰富的训练和测试数据。数据集分为多个版本，包括release_v1、release_v2和release_v2_constrained。其中，release_v2是最新版本，包含了release_v1的数据以及WebNLG挑战赛中的测试数据，并按照DBpedia类别和三元组大小进行了均衡划分。release_v2_constrained则进一步增加了数据划分的难度，确保训练集和开发集中的三元组不会出现在测试集中。

特点

WebNLG数据集的特点在于其多样化的数据结构和丰富的类别覆盖。数据集涵盖了15个DBpedia类别，每个输入RDF树的结构和类型（如兄弟节点、链式结构、混合结构）均被详细标注。release_v2版本还引入了树形结构和类型信息，为研究者提供了更丰富的语义信息。此外，release_v2_constrained版本通过更严格的数据划分，特别适用于处理稀有项的数据到文本生成任务。

使用方法

WebNLG数据集的使用方法较为灵活，支持XML和JSON两种数据格式。研究者可以根据具体任务需求选择不同的版本和格式。release_v2和release_v2_constrained版本已预先划分为训练集、开发集和测试集，便于直接用于模型训练和评估。对于release_v1版本，用户需自行进行数据划分。数据集的使用场景包括但不限于自然语言生成、数据到文本转换以及语义解析等任务。使用该数据集时，建议参考相关文献以获取更详细的技术细节和应用案例。

背景与挑战

背景概述

WebNLG数据集由Claire Gardent、Anastasia Shimorina、Shashi Narayan和Laura Perez-Beltrachini等研究人员于2017年创建，旨在为自然语言生成（NLG）领域提供高质量的语料库。该数据集的核心研究问题是如何从结构化的RDF数据生成自然语言文本，特别是在微规划（Micro-Planning）任务中的应用。WebNLG数据集涵盖了多个DBpedia类别，并通过不同的版本（如release_v1和release_v2）逐步扩展和优化。该数据集在自然语言生成领域具有重要影响力，为数据到文本生成任务提供了基准测试和模型训练的基础。

当前挑战

WebNLG数据集在解决数据到文本生成问题时面临多个挑战。首先，如何从复杂的RDF数据结构中生成连贯且自然的文本是一个核心难题，尤其是在处理稀有项和复杂树形结构时。其次，数据集的构建过程中，研究人员需要确保训练集、开发集和测试集的划分能够有效避免数据泄露，特别是在release_v2_constrained版本中，要求训练集和测试集之间不存在重叠的三元组。此外，如何平衡不同DBpedia类别的数据分布以及如何处理不同规模的RDF三元组也是构建过程中的重要挑战。这些挑战不仅影响了数据集的构建，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

WebNLG数据集在自然语言生成（NLG）领域中被广泛用于数据到文本生成任务。该数据集通过提供结构化的RDF三元组数据，要求模型生成连贯且自然的文本描述。这种任务不仅测试了模型的语言生成能力，还考察了其对结构化数据的理解和转换能力。WebNLG数据集因其丰富的类别和多样的数据分布，成为评估和改进自然语言生成模型的理想选择。

实际应用

WebNLG数据集在实际应用中具有广泛的价值，尤其是在自动生成报告、新闻摘要和知识图谱描述等场景中。通过将结构化的RDF数据转换为自然语言文本，该数据集的应用能够显著提升信息传递的效率和可读性。例如，在新闻自动化领域，WebNLG数据集可以帮助生成基于结构化数据的新闻报道，减少人工编辑的工作量。此外，该数据集还在智能客服和知识问答系统中得到了应用，提升了系统的自然语言生成能力。

衍生相关工作

WebNLG数据集催生了许多经典的自然语言生成研究工作。例如，基于该数据集的研究提出了多种改进数据到文本生成模型的方法，如基于注意力机制的生成模型和基于预训练语言模型的生成方法。此外，WebNLG挑战赛也吸引了大量研究者的参与，推动了该领域的技术进步。相关研究不仅提升了生成文本的质量，还探索了如何处理稀有项和复杂数据结构，为自然语言生成技术的发展提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集