webnlg-challenge/web_nlg

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/webnlg-challenge/web_nlg

下载链接

链接失效反馈

资源简介：

WebNLG数据集旨在将数据映射到文本，特别是将来自DBpedia的RDF三元组转换为自然语言句子。该数据集支持自然语言生成（NLG）任务，并已用于WebNLG2017和WebNLG2020等挑战。数据集包括英语和俄语数据，后者是前者的翻译。README还讨论了数据集的创建过程，包括注释过程和其背后的策划理由。它强调了潜在的偏见和限制，如性别偏见和翻译质量问题。该数据集旨在提高RDF数据的可访问性，并丰富来自知识库（如DBpedia）的信息文本。

提供机构：

webnlg-challenge

原始信息汇总

数据集卡片 for WebNLG

数据集描述

数据集摘要

WebNLG 挑战赛旨在将数据映射为文本。训练数据包括数据/文本对，其中数据是从 DBpedia 提取的三元组集合，文本是对这些三元组的口头表达。例如，给定三个 DBpedia 三元组（a），目标是生成一个如（b）所示的文本。

a. (John_E_Blaha birthDate 1942_08_26) (John_E_Blaha birthPlace San_Antonio) (John_E_Blaha occupation Fighter_pilot) b. John E Blaha, 出生于 1942-08-26 的圣安东尼奥，是一名战斗机飞行员

该任务涉及特定的自然语言生成子任务，如句子分割（如何将输入数据分成句子）、词汇化（DBpedia 属性的词汇化）、聚合（如何避免重复）和表面实现（如何构建语法正确且听起来自然的文本）。

支持的任务和排行榜

该数据集支持结构化到文本的任务，该任务要求模型接受来自数据库（DBpedia）的 RDF（资源描述格式）三元组（主体、属性、对象）集合作为输入，并输出表达三元组中包含信息的自然语言句子。数据集支持两个挑战：WebNLG2017 和 WebNLG2020。结果按其 METEOR 排序，但排行榜报告了一系列其他指标，包括 BLEU、BERTscore 和 BLEURT。v3 版本（release_v3.0_en、release_v3.0_ru）还支持语义解析任务。

语言

所有版本都包含英语（en）数据。v3 版本（release_v3.0_ru）还包含俄语（ru）示例。

数据集结构

数据实例

一个典型的例子包含原始 RDF 三元组集合、一个修改版本（呈现给众包工作者），以及该三元组集合的可能口头表达：

json { "2017_test_category": "", "category": "Politician", "eid": "Id10", "lex": { "comment": ["good", "good", "good"], "lid": ["Id1", "Id2", "Id3"], "text": [ "World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.", "Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.", "Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek." ] }, "modified_triple_sets": { "mtriple_set": [ ["Abner_W._Sibal | battle | World_War_II", "World_War_II | commander | Chiang_Kai-shek", "Abner_W._Sibal | militaryBranch | United_States_Army"] ] }, "original_triple_sets": { "otriple_set": [ ["Abner_W._Sibal | battles | World_War_II", "World_War_II | commander | Chiang_Kai-shek", "Abner_W._Sibal | branch | United_States_Army"], ["Abner_W._Sibal | militaryBranch | United_States_Army", "Abner_W._Sibal | battles | World_War_II", "World_War_II | commander | Chiang_Kai-shek"] ] }, "shape": "(X (X) (X (X)))", "shape_type": "mixed", "size": 3 }

数据字段

实例中包含以下字段：

category：DBpedia 实体在 RDF 三元组中的类别。
eid：示例 ID，每个类别每个分割唯一。
size：集合中的 RDF 三元组数量。
shape：（自 v2 起）每个 RDF 三元组集合是一个树，由其形状和形状类型表征。shape 是树的字符串表示，带有嵌套括号，其中 X 是一个节点（参见 Newick 树格式）。
shape_type：（自 v2 起）树形状的类型，可以是：chain（一个三元组的对象是另一个三元组的主体）；sibling（共享主体的三元组）；mixed（同时存在链和兄弟类型）。
test_category：（对于 webnlg_challenge_2017 和 v3）指示 RDF 三元组集合是否出现在训练集中。测试集有多个分割：有和没有参考，以及用于 RDF-to-text 生成 / 语义解析。
lex：词汇化，包含：
- text：要预测的文本。
- lid：词汇化 ID，每个示例唯一。
- comment：词汇化由众包工作者评级为 good 或 bad。
- lang：（对于 release_v3.0_ru）使用的语言，因为原始英语文本保留在俄语版本中。

俄语数据相对于英语有额外的可选字段：

dbpedialinks：通过 sameAs 属性从 DBpedia 提取的英语和俄语实体之间的 RDF 三元组。
links：为某些实体手动创建的 RDF 三元组，作为翻译者的指针。有两种类型：
- 带有 sameAs（例如 Spaniards | sameAs | испанцы）
- 带有 includes（例如 Tomatoes, guanciale, cheese, olive oil | includes | гуанчиале）。这些主要是为字符串文字创建的，用于翻译其中的一些部分。

数据分割

对于 v3.0 版本：

英语 (v3.0)	训练	开发	测试（数据到文本）
三元组集合	13,211	1,667	1,779
文本	35,426	4,464	5,150
属性	372	290	220

俄语 (v3.0)	训练	开发	测试（数据到文本）
三元组集合	5,573	790	1,102
文本	14,239	2,026	2,780
属性	226	115	192

数据集创建

策划理由

WebNLG 数据集旨在促进 RDF 口头表达器和能够处理广泛语言结构的微规划器的发展。数据集旨在涵盖不同领域的知识（“类别”）。相同的属性和实体可以出现在多个类别中。

源数据

数据从原始 DBpedia 三元组编译而来。这篇论文解释了如何选择三元组。

初始数据收集和规范化

从 DBpedia 提取的初始三元组经过了几种修改。有关最常见的更改，请参阅官方文档。一个原始三元组集合和一个修改后的三元组集合通常表示一对一的映射。然而，也存在多对一映射的情况，即多个原始三元组集合映射到一个修改后的三元组集合。

作为 RDF 树根的实体列在这个文件中。

英语 WebNLG 2020 数据集（v3.0）的训练包括 16 个不同的 DBpedia 类别的数据-文本对：

2017 版本中使用的 10 个已见类别：Airport, Astronaut, Building, City, ComicsCharacter, Food, Monument, SportsTeam, University, 和 WrittenWork。
2017 年未见但现在是已见数据的 5 个类别：Athlete, Artist, CelestialBody, MeanOfTransportation, Politician。
1 个新类别：Company。

俄语数据集（v3.0）包括 9 个不同类别的数据-文本对：Airport, Astronaut, Building, CelestialBody, ComicsCharacter, Food, Monument, SportsTeam, 和 University。

源语言生产者是谁？

没有源文本，所有文本材料都是在注释过程中编译的。

注释

注释过程

注释者首先被要求创建口头表达单个三元组的句子。在第二轮中，注释者被要求将单个三元组句子组合成覆盖两个三元组的句子。以此类推，直到 7 个三元组。进行了质量检查以确保注释的质量。参见数据集论文的第 3.3 节。

俄语数据是从英语翻译的，然后由众包工作者进行后期编辑。参见这篇论文的第 2.2 节。

注释者是谁？

所有参考文献都是通过众包平台（CrowdFlower/Figure 8 和 Amazon Mechanical Turk）收集的。对于俄语，后期编辑是通过 Yandex.Toloka 众包平台完成的。

个人和敏感信息

数据集的发布或注释过程中不涉及收集或共享任何类型的个人/人口统计信息。

使用数据时的考虑

数据集的社会影响

我们不预见该数据集或任务有任何特定的负面社会影响。

积极的前景：能够从 RDF 数据生成高质量文本将允许，例如，使这些数据对普通用户更易于访问，丰富现有文本与从知识库（如 DBpedia）提取的信息，描述、比较和关联这些知识库中的实体。

偏见的讨论

该数据集是使用 DBpedia RDF 三元组创建的，自然会表现出在 Wikipedia 中发现的偏见，例如某些形式的性别偏见。

实体的选择没有受到控制。因此，它们可能包含性别偏见；例如，所有由 RDF 三元组描述的宇航员都是男性。因此，在文本中，代词 he/him/his 出现的频率更高。类似地，实体可能更多地与西方文化相关，而不是其他文化。

其他已知限制

众包参考文献的质量有限，特别是在流畅性/自然性方面。

俄语数据是机器翻译的，然后由众包工作者进行后期编辑，因此一些示例可能仍然存在与糟糕翻译相关的问题。

附加信息

数据集策展人

数据集的主要策展人是 Anastasi

搜集汇总

数据集介绍

构建方式

WebNLG数据集旨在促进RDF言语生成和能够处理广泛的语言构造的微观规划器的发展。数据集由从DBpedia中提取的三元组组成，并通过众包平台收集的文本进行注释，这些文本对应于这些三元组的自然语言表达。数据集的构建涉及将原始DBpedia三元组进行修改，以便于众包工作者理解和生成文本。数据集还包含了不同版本，例如v1、v2、v2.1和v3.0，每个版本都有其特定的数据结构和特性。

特点

WebNLG数据集的特点在于其多语言支持，包括英语和俄语。数据集支持从结构化数据到文本的任务，需要模型从数据库（如DBpedia）中提取的RDF三元组作为输入，并生成表达这些三元组信息的自然语言句子。数据集还包含了不同版本，例如v1、v2、v2.1和v3.0，每个版本都有其特定的数据结构和特性。此外，数据集还包含了不同类型的树形结构，如链式、兄弟式和混合式，以及不同大小的数据集。

使用方法

使用WebNLG数据集时，用户可以选择不同的版本和语言。数据集以JSON格式提供，其中包含了多个字段，如类别、大小、ID、原始和修改后的三元组集、形状、形状类型、词汇、测试类别、DBpedia链接和链接。用户可以通过指定配置名称来选择不同的数据集版本，并通过字段名称来访问数据实例。例如，要访问训练集，用户可以指定配置名称为'release_v3.0_en'，并访问相应的字段。

背景与挑战

背景概述

在自然语言生成（NLG）领域，将结构化数据转换为自然语言文本是一个重要的研究方向。WebNLG数据集正是为了推动这一领域的发展而创建的。该数据集由法国国家信息与自动化研究所（INRIA）的研究团队负责，从DBpedia中提取RDF三元组，并生成对应的自然语言文本。WebNLG数据集不仅覆盖了多个领域，如机场、宇航员、建筑物、城市等，还包括了不同数量的RDF三元组，以适应不同的NLG任务。该数据集的创建旨在促进RDF口语化和微规划的发展，能够处理各种语言结构。

当前挑战

WebNLG数据集面临的挑战主要包括：1)数据集中可能存在的偏见，例如性别偏见和文化偏见，这可能会影响生成的文本质量；2)由于数据集是通过众包平台收集的，因此存在一些质量问题，如文本的自然度和流畅度可能不够；3)对于某些领域或主题，可能缺乏足够的RDF三元组，这可能会限制NLG模型的学习效果。

常用场景

经典使用场景

WebNLG数据集，作为自然语言生成(NLG)领域的重要资源，其经典使用场景主要围绕将结构化数据转换为自然语言文本。数据集包含了从DBpedia中提取的RDF三元组及其对应的自然语言表述，为NLG模型的训练提供了丰富的语料。研究者可以运用WebNLG数据集，训练模型学习如何从数据中提取信息，并生成流畅、准确的文本描述，例如生成关于人物、地点、事件等的介绍性文本。

实际应用

WebNLG数据集在实际应用场景中具有广泛的应用前景。例如，在信息抽取和知识图谱构建领域，WebNLG可以用于生成知识图谱的文本描述，帮助用户更好地理解和利用知识图谱中的信息。在智能问答系统中，WebNLG可以用于生成回答问题的文本描述，提高问答系统的用户体验。此外，WebNLG还可以用于自动摘要、文本生成等领域，为各种自然语言处理任务提供支持。

衍生相关工作

WebNLG数据集的发布和推广，推动了NLG领域的研究进展，衍生出许多相关的经典工作。例如，一些研究者利用WebNLG数据集训练NLG模型，在语义解析、文本生成等任务上取得了显著的成果。此外，WebNLG数据集还促进了NLG模型的跨领域、跨语言应用，为NLG领域的发展做出了重要贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集