webnlg-challenge/web_nlg
收藏数据集卡片 for WebNLG
数据集描述
数据集摘要
WebNLG 挑战赛旨在将数据映射为文本。训练数据包括数据/文本对,其中数据是从 DBpedia 提取的三元组集合,文本是对这些三元组的口头表达。例如,给定三个 DBpedia 三元组(a),目标是生成一个如(b)所示的文本。
a. (John_E_Blaha birthDate 1942_08_26) (John_E_Blaha birthPlace San_Antonio) (John_E_Blaha occupation Fighter_pilot) b. John E Blaha, 出生于 1942-08-26 的圣安东尼奥,是一名战斗机飞行员
该任务涉及特定的自然语言生成子任务,如句子分割(如何将输入数据分成句子)、词汇化(DBpedia 属性的词汇化)、聚合(如何避免重复)和表面实现(如何构建语法正确且听起来自然的文本)。
支持的任务和排行榜
该数据集支持结构化到文本的任务,该任务要求模型接受来自数据库(DBpedia)的 RDF(资源描述格式)三元组(主体、属性、对象)集合作为输入,并输出表达三元组中包含信息的自然语言句子。数据集支持两个挑战:WebNLG2017 和 WebNLG2020。结果按其 METEOR 排序,但排行榜报告了一系列其他指标,包括 BLEU、BERTscore 和 BLEURT。v3 版本(release_v3.0_en、release_v3.0_ru)还支持语义解析任务。
语言
所有版本都包含英语(en)数据。v3 版本(release_v3.0_ru)还包含俄语(ru)示例。
数据集结构
数据实例
一个典型的例子包含原始 RDF 三元组集合、一个修改版本(呈现给众包工作者),以及该三元组集合的可能口头表达:
json { "2017_test_category": "", "category": "Politician", "eid": "Id10", "lex": { "comment": ["good", "good", "good"], "lid": ["Id1", "Id2", "Id3"], "text": [ "World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.", "Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.", "Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek." ] }, "modified_triple_sets": { "mtriple_set": [ ["Abner_W._Sibal | battle | World_War_II", "World_War_II | commander | Chiang_Kai-shek", "Abner_W._Sibal | militaryBranch | United_States_Army"] ] }, "original_triple_sets": { "otriple_set": [ ["Abner_W._Sibal | battles | World_War_II", "World_War_II | commander | Chiang_Kai-shek", "Abner_W._Sibal | branch | United_States_Army"], ["Abner_W._Sibal | militaryBranch | United_States_Army", "Abner_W._Sibal | battles | World_War_II", "World_War_II | commander | Chiang_Kai-shek"] ] }, "shape": "(X (X) (X (X)))", "shape_type": "mixed", "size": 3 }
数据字段
实例中包含以下字段:
category:DBpedia 实体在 RDF 三元组中的类别。eid:示例 ID,每个类别每个分割唯一。size:集合中的 RDF 三元组数量。shape:(自 v2 起)每个 RDF 三元组集合是一个树,由其形状和形状类型表征。shape是树的字符串表示,带有嵌套括号,其中 X 是一个节点(参见 Newick 树格式)。shape_type:(自 v2 起)树形状的类型,可以是:chain(一个三元组的对象是另一个三元组的主体);sibling(共享主体的三元组);mixed(同时存在链和兄弟类型)。test_category:(对于webnlg_challenge_2017和v3)指示 RDF 三元组集合是否出现在训练集中。测试集有多个分割:有和没有参考,以及用于 RDF-to-text 生成 / 语义解析。lex:词汇化,包含:text:要预测的文本。lid:词汇化 ID,每个示例唯一。comment:词汇化由众包工作者评级为good或bad。lang:(对于release_v3.0_ru)使用的语言,因为原始英语文本保留在俄语版本中。
俄语数据相对于英语有额外的可选字段:
dbpedialinks:通过sameAs属性从 DBpedia 提取的英语和俄语实体之间的 RDF 三元组。links:为某些实体手动创建的 RDF 三元组,作为翻译者的指针。有两种类型:- 带有
sameAs(例如Spaniards | sameAs | испанцы) - 带有
includes(例如Tomatoes, guanciale, cheese, olive oil | includes | гуанчиале)。这些主要是为字符串文字创建的,用于翻译其中的一些部分。
- 带有
数据分割
对于 v3.0 版本:
| 英语 (v3.0) | 训练 | 开发 | 测试(数据到文本) |
|---|---|---|---|
| 三元组集合 | 13,211 | 1,667 | 1,779 |
| 文本 | 35,426 | 4,464 | 5,150 |
| 属性 | 372 | 290 | 220 |
| 俄语 (v3.0) | 训练 | 开发 | 测试(数据到文本) |
|---|---|---|---|
| 三元组集合 | 5,573 | 790 | 1,102 |
| 文本 | 14,239 | 2,026 | 2,780 |
| 属性 | 226 | 115 | 192 |
数据集创建
策划理由
WebNLG 数据集旨在促进 RDF 口头表达器和能够处理广泛语言结构的微规划器的发展。数据集旨在涵盖不同领域的知识(“类别”)。相同的属性和实体可以出现在多个类别中。
源数据
数据从原始 DBpedia 三元组编译而来。这篇论文 解释了如何选择三元组。
初始数据收集和规范化
从 DBpedia 提取的初始三元组经过了几种修改。有关最常见的更改,请参阅 官方文档。一个原始三元组集合和一个修改后的三元组集合通常表示一对一的映射。然而,也存在多对一映射的情况,即多个原始三元组集合映射到一个修改后的三元组集合。
作为 RDF 树根的实体列在 这个文件 中。
英语 WebNLG 2020 数据集(v3.0)的训练包括 16 个不同的 DBpedia 类别的数据-文本对:
- 2017 版本中使用的 10 个已见类别:Airport, Astronaut, Building, City, ComicsCharacter, Food, Monument, SportsTeam, University, 和 WrittenWork。
- 2017 年未见但现在是已见数据的 5 个类别:Athlete, Artist, CelestialBody, MeanOfTransportation, Politician。
- 1 个新类别:Company。
俄语数据集(v3.0)包括 9 个不同类别的数据-文本对:Airport, Astronaut, Building, CelestialBody, ComicsCharacter, Food, Monument, SportsTeam, 和 University。
源语言生产者是谁?
没有源文本,所有文本材料都是在注释过程中编译的。
注释
注释过程
注释者首先被要求创建口头表达单个三元组的句子。在第二轮中,注释者被要求将单个三元组句子组合成覆盖两个三元组的句子。以此类推,直到 7 个三元组。进行了质量检查以确保注释的质量。参见 数据集论文 的第 3.3 节。
俄语数据是从英语翻译的,然后由众包工作者进行后期编辑。参见 这篇论文 的第 2.2 节。
注释者是谁?
所有参考文献都是通过众包平台(CrowdFlower/Figure 8 和 Amazon Mechanical Turk)收集的。对于俄语,后期编辑是通过 Yandex.Toloka 众包平台完成的。
个人和敏感信息
数据集的发布或注释过程中不涉及收集或共享任何类型的个人/人口统计信息。
使用数据时的考虑
数据集的社会影响
我们不预见该数据集或任务有任何特定的负面社会影响。
积极的前景:能够从 RDF 数据生成高质量文本将允许,例如,使这些数据对普通用户更易于访问,丰富现有文本与从知识库(如 DBpedia)提取的信息,描述、比较和关联这些知识库中的实体。
偏见的讨论
该数据集是使用 DBpedia RDF 三元组创建的,自然会表现出在 Wikipedia 中发现的偏见,例如某些形式的性别偏见。
实体 的选择没有受到控制。因此,它们可能包含性别偏见;例如,所有由 RDF 三元组描述的宇航员都是男性。因此,在文本中,代词 he/him/his 出现的频率更高。类似地,实体可能更多地与西方文化相关,而不是其他文化。
其他已知限制
众包参考文献的质量有限,特别是在流畅性/自然性方面。
俄语数据是机器翻译的,然后由众包工作者进行后期编辑,因此一些示例可能仍然存在与糟糕翻译相关的问题。
附加信息
数据集策展人
数据集的主要策展人是 Anastasi




