five

WebNLG Dataset

收藏
github2023-06-19 更新2024-05-31 收录
下载链接:
https://github.com/fuzihaofzh/webnlg-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库展示了WebNLG语料库的演变。每个文件夹包含相同的数据,格式为xml和json。数据集包括多个版本,如release_v2、release_v2_constrained、release_v1和webnlg_challenge_2017,每个版本都有详细的数据划分和覆盖的DBpedia类别。

本库荟萃了WebNLG语料库之演变历程。各子目录内蕴藏格式一致的xml与数据,旨在全面呈现。数据集涵盖多个版本,诸如release_v2、release_v2_constrained、release_v1以及webnlg_challenge_2017等,每一版均细致划分数据,并覆盖了DBpedia之各类别。
创建时间:
2018-10-02
原始信息汇总

WebNLG Dataset Summary

Data Releases

  1. release_v2

    • Latest release.
    • Includes release_v1 and test data (seen categories) from the WebNLG challenge.
    • Split into train/dev/test with equal representation of DBpedia categories and tripleset sizes.
    • Includes tree shapes and types (sibling, chain, mixed) for each input RDF tree.
  2. release_v2_constrained

    • Contains the same data as release_v2.
    • Split into train/dev/test with a more challenging constraint: no triple occurring in train/dev is present in test.
  3. release_v1

    • Matches Final Release (Larger Dataset) on the challenge website.
    • Does not include test data (seen categories) from the challenge.
    • No split into train/dev/test provided.
    • Covers 15 DBpedia categories.
  4. webnlg_challenge_2017

    • Contains data used in the WebNLG Challenge 2017.
    • Covers 10 DBpedia categories (partially for the City category).

Data Formats

  • Each folder contains the same data in two formats: xml and json.

Dataset Coverage

  • DBpedia Categories:
    • release_v1: 15 categories
    • webnlg_challenge_2017: 10 categories (partially for City)

Citation Information

  • For general use of the WebNLG corpus:

    @InProceedings{gardent2017creating, author = "Gardent, Claire and Shimorina, Anastasia and Narayan, Shashi and Perez-Beltrachini, Laura", title = "Creating Training Corpora for NLG Micro-Planners", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", year = "2017", publisher = "Association for Computational Linguistics", pages = "179--188", location = "Vancouver, Canada", doi = "10.18653/v1/P17-1017", url = "http://www.aclweb.org/anthology/P17-1017" }

  • For use of release_v2_constrained:

    @InProceedings{shimorina2018handling, author = "Shimorina, Anastasia and Gardent, Claire", title = "Handling Rare Items in Data-to-Text Generation", booktitle = "Proceedings of the 11th International Conference on Natural Language Generation", year = "2018", publisher = "Association for Computational Linguistics", location = "Tilburg, The Netherlands" }

License

搜集汇总
数据集介绍
main_image_url
构建方式
WebNLG数据集的构建基于DBpedia知识库中的RDF三元组,旨在为自然语言生成(NLG)任务提供丰富的训练和测试数据。数据集分为多个版本,包括release_v1、release_v2和release_v2_constrained。其中,release_v2是最新版本,包含了release_v1的数据以及WebNLG挑战赛中的测试数据,并按照DBpedia类别和三元组大小进行了均衡划分。release_v2_constrained则进一步增加了数据划分的难度,确保训练集和开发集中的三元组不会出现在测试集中。
特点
WebNLG数据集的特点在于其多样化的数据结构和丰富的类别覆盖。数据集涵盖了15个DBpedia类别,每个输入RDF树的结构和类型(如兄弟节点、链式结构、混合结构)均被详细标注。release_v2版本还引入了树形结构和类型信息,为研究者提供了更丰富的语义信息。此外,release_v2_constrained版本通过更严格的数据划分,特别适用于处理稀有项的数据到文本生成任务。
使用方法
WebNLG数据集的使用方法较为灵活,支持XML和JSON两种数据格式。研究者可以根据具体任务需求选择不同的版本和格式。release_v2和release_v2_constrained版本已预先划分为训练集、开发集和测试集,便于直接用于模型训练和评估。对于release_v1版本,用户需自行进行数据划分。数据集的使用场景包括但不限于自然语言生成、数据到文本转换以及语义解析等任务。使用该数据集时,建议参考相关文献以获取更详细的技术细节和应用案例。
背景与挑战
背景概述
WebNLG数据集由Claire Gardent、Anastasia Shimorina、Shashi Narayan和Laura Perez-Beltrachini等研究人员于2017年创建,旨在为自然语言生成(NLG)领域提供高质量的语料库。该数据集的核心研究问题是如何从结构化的RDF数据生成自然语言文本,特别是在微规划(Micro-Planning)任务中的应用。WebNLG数据集涵盖了多个DBpedia类别,并通过不同的版本(如release_v1和release_v2)逐步扩展和优化。该数据集在自然语言生成领域具有重要影响力,为数据到文本生成任务提供了基准测试和模型训练的基础。
当前挑战
WebNLG数据集在解决数据到文本生成问题时面临多个挑战。首先,如何从复杂的RDF数据结构中生成连贯且自然的文本是一个核心难题,尤其是在处理稀有项和复杂树形结构时。其次,数据集的构建过程中,研究人员需要确保训练集、开发集和测试集的划分能够有效避免数据泄露,特别是在release_v2_constrained版本中,要求训练集和测试集之间不存在重叠的三元组。此外,如何平衡不同DBpedia类别的数据分布以及如何处理不同规模的RDF三元组也是构建过程中的重要挑战。这些挑战不仅影响了数据集的构建,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
WebNLG数据集在自然语言生成(NLG)领域中被广泛用于数据到文本生成任务。该数据集通过提供结构化的RDF三元组数据,要求模型生成连贯且自然的文本描述。这种任务不仅测试了模型的语言生成能力,还考察了其对结构化数据的理解和转换能力。WebNLG数据集因其丰富的类别和多样的数据分布,成为评估和改进自然语言生成模型的理想选择。
实际应用
WebNLG数据集在实际应用中具有广泛的价值,尤其是在自动生成报告、新闻摘要和知识图谱描述等场景中。通过将结构化的RDF数据转换为自然语言文本,该数据集的应用能够显著提升信息传递的效率和可读性。例如,在新闻自动化领域,WebNLG数据集可以帮助生成基于结构化数据的新闻报道,减少人工编辑的工作量。此外,该数据集还在智能客服和知识问答系统中得到了应用,提升了系统的自然语言生成能力。
衍生相关工作
WebNLG数据集催生了许多经典的自然语言生成研究工作。例如,基于该数据集的研究提出了多种改进数据到文本生成模型的方法,如基于注意力机制的生成模型和基于预训练语言模型的生成方法。此外,WebNLG挑战赛也吸引了大量研究者的参与,推动了该领域的技术进步。相关研究不仅提升了生成文本的质量,还探索了如何处理稀有项和复杂数据结构,为自然语言生成技术的发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作