webnlg/challenge-2023
收藏数据集卡片 - WebNLG 2023挑战赛
数据集描述
数据集摘要
WebNLG 2023挑战赛专注于四种资源不足的语言,即马耳他语、爱尔兰语、布列塔尼语和威尔士语,这些语言在文本生成研究中严重不足。此外,WebNLG 2023再次包括俄语,这是首次在WebNLG 2020中出现。
挑战赛聚焦于RDF到文本的生成,类似于WebNLG 2017,但针对布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语。
挑战赛包括将数据映射到文本。训练数据由数据/文本对组成,其中数据是从DBpedia提取的三元组集,文本是这些三元组的口头表达。
例如,给定4个RDF三元组:
<entry category="Company" eid="Id21" shape="(X (X) (X) (X) (X))" shape_type="sibling" size="4"> <modifiedtripleset> <mtriple>Trane | foundingDate | 1913-01-01</mtriple> <mtriple>Trane | location | Ireland</mtriple> <mtriple>Trane | foundationPlace | La_Crosse,_Wisconsin</mtriple> <mtriple>Trane | numberOfEmployees | 29000</mtriple> </modifiedtripleset> </entry>
目标是生成一个文本,例如(英语文本):
Trane, which was founded on January 1st 1913 in La Crosse, Wisconsin, is based in Ireland. It has 29,000 employees.
或(俄语文本):
Компания "Тране", основанная 1 января 1913 года в Ла-Кроссе в штате Висконсин, находится в Ирландии. В компании работают 29 тысяч человек.
支持的任务和排行榜
该数据集支持结构化到文本的任务,要求模型接受来自数据库(DBpedia)的RDF(资源描述格式)三元组集作为输入,并写出表达三元组中包含信息的自然语言句子。
该数据集用于WebNLG 2023挑战赛。
结果通过自动指标进行评估:BLEU、METEOR、ChrF++、TER和BERTscore。此外,结果还根据语法正确性、适当性、流畅性等标准由母语者进行评估。
语言
数据集包括布列塔尼语(br)、威尔士语(cy)、爱尔兰语(ga)、马耳他语(mt)和俄语(ru)。
数据集结构
数据实例
一个典型示例包含原始RDF三元组集、修改后的版本(呈现给众包工作者)以及这些三元组集的可能口头表达:
{category: Airport, size: 1, eid: 1, original_triple_sets: {otriple_set: [[Aarhus_Airport | cityServed | "Aarhus, Denmark"@en]]}, modified_triple_sets: {mtriple_set: [[Aarhus_Airport | cityServed | "Aarhus, Denmark"]]}, shape: (X (X)), shape_type: NA, lex: {comment: [good, good, , ], lid: [Id1, Id2, Id3, Id3], text: [Aarhus a zo an aro-vezh Aarhus., "Aarhus a servijit ar chêr Aarhus.", The Aarhus is the airport of Aarhus, Denmark., Aarhus Airport serves the city of Aarhus, Denmark.], lang: [br, br, en, en]}}
数据字段
实例中包含以下字段:
category:DBpedia实体在RDF三元组中的类别。eid:示例ID,仅在每个类别中每个拆分唯一。size:集合中RDF三元组的数量。shape:(自v2起)每个RDF三元组集是一个树,由其形状和形状类型表征。shape是用嵌套括号表示树的字符串,其中X是一个节点(参见Newick树格式)。shape_type:(自v2起)树形状的类型,可以是:chain(一个三元组的对象是另一个三元组的主体);sibling(共享主体的三元组);mixed(同时存在链和兄弟类型)。test_category:(对于webnlg_challenge_2017和v3)指示RDF三元组集是否出现在训练集中。测试集有几种拆分方式:有和没有参考,以及用于RDF到文本生成/用于语义解析。lex:词汇化,包含:text:要预测的文本。lid:词汇化ID,每个示例唯一。comment:词汇化由众包工作者评级为good或bad。lang:(对于release_v3.0_ru)使用的语言,因为原始英语文本保留在俄语版本中。
数据拆分
数据集拆分为训练和验证:
| 语言 | 训练 | 验证 |
|---|---|---|
| br | 13211 | 1399 |
| cy | 13211 | 1665 |
| ga | 13211 | 1665 |
| mt | 13211 | 1665 |
| ru | 5573 | 790 |
数据集创建
策划理由
WebNLG数据集的创建旨在促进RDF口头表达器和能够处理广泛语言结构的微规划器的发展。数据集旨在涵盖不同领域的知识(“类别”)。相同的属性和实体可以出现在多个类别中。
源数据
数据从原始DBpedia三元组编译而来。这篇论文解释了三元组的选择方式。
初始数据收集和规范化
从DBpedia提取的初始三元组经过多次修改。有关最常见的更改,请参阅官方文档。原始三元组集和修改后的三元组集通常表示一对一映射。然而,在多个原始三元组集映射到一个修改后的三元组集的情况下,存在多对一映射。
作为RDF树根的实体列在此文件中。
用于训练的英语WebNLG 2020数据集(v3.0)包含16个不同DBpedia类别的数据-文本对:
- 2017版本中使用的10个已见类别:机场、宇航员、建筑、城市、漫画角色、食物、纪念碑、体育队伍、大学和书面作品。
- 2017年的5个未见类别,现在已成为已见数据:运动员、艺术家、天体、交通工具、政治家。
- 1个新类别:公司。
俄语数据集(v3.0)包含9个不同类别的数据-文本对:机场、宇航员、建筑、天体、漫画角色、食物、纪念碑、体育队伍和大学。
源语言生产者
没有源文本,所有文本材料都是在注释过程中编译的。
注释
注释过程
注释者首先被要求创建口头表达单个三元组的句子。在第二轮中,注释者被要求将单个三元组句子组合成覆盖2个三元组的句子。以此类推,直到7个三元组。质量检查是为了确保注释的质量。参见数据集论文的第3.3节。
俄语数据是从英语通过MT系统翻译,然后由众包工作者进行后期编辑。参见这篇论文的第2.2节。
注释者
所有参考文献都是通过众包平台(CrowdFlower/Figure 8和Amazon Mechanical Turk)收集的。对于俄语,后期编辑是通过Yandex.Toloka众包平台完成的。
个人和敏感信息
数据集的发布或注释过程不涉及收集或共享任何类型的个人/人口统计信息。
使用数据的考虑
数据集的社会影响
我们不预见该数据集或任务有任何特定的负面社会影响。
积极的展望:能够从RDF数据生成高质量文本将允许,例如,使这些数据对普通用户更易于访问,丰富现有文本与从知识库(如DBpedia)提取的信息,描述、比较和关联这些知识库中的实体。
讨论偏见
该数据集使用DBpedia RDF三元组创建,自然会表现出在维基百科中发现的偏见,例如某些形式的性别偏见。
实体的选择未受控制。因此,它们可能包含性别偏见;例如,所有由RDF三元组描述的宇航员都是男性。因此,在文本中,代词_he/him/his_出现的频率更高。类似地,实体可能与西方文化更频繁地相关联。
其他已知限制
众包参考文献的质量有限,特别是在流畅性/自然性方面。
俄语数据是通过机器翻译然后由众包工作者后期编辑的,因此一些示例可能仍然存在与糟糕翻译相关的问题。
附加信息
数据集策展人
数据集的主要策展人是Anastasia Shimorina(洛林大学/LORIA,法国)。在WebNLG版本的构建过程中,有几个人做出了贡献:Claire Gardent(CNRS/LORIA,法国),Shashi Narayan(谷歌,英国),Laura Perez-Beltrachini(爱丁堡大学,英国),Elena Khasanova和Thiago Castro Ferreira(联邦大学米纳斯吉拉斯,巴西)。数据集的构建得到了法国国家研究机构(ANR)的资助。
许可信息
数据集使用cc-by-nc-sa-4.0许可。源DBpedia项目使用cc-by-sa-3.0和gfdl-1.1许可。
引用信息
如果您使用WebNLG语料库,请引用:
@inproceedings{web_nlg, author = {Claire Gardent and Anastasia Shimorina and Shashi Narayan and Laura Perez{-}Beltrachini}, editor = {Regina Barzilay and Min{-}Yen Kan}, title = {Creating Training Corpora for {NLG} Micro-Planners}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers}, pages = {179--188}, publisher = {Association for Computational Linguistics}, year = {2017}, url = {https://doi.org/10.18653/v1/P17-1017}, doi = {10.18653/v1/P17-1017} }
贡献
感谢@albertvillanova添加此数据集。



