webnlg/challenge-2023

Name: webnlg/challenge-2023
Creator: webnlg
Published: 2023-03-10 11:22:40
License: 暂无描述

Hugging Face2023-03-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/webnlg/challenge-2023

下载链接

链接失效反馈

官方服务：

资源简介：

WebNLG 2023挑战赛的数据集专注于四种资源匮乏的语言，这些语言在文本生成研究中严重不足，包括马耳他语、爱尔兰语、布列塔尼语和威尔士语。此外，WebNLG 2023再次包括俄语，该语言首次出现在WebNLG 2020中。挑战赛的重点是RDF到文本的生成，类似于WebNLG 2017，但针对布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语。挑战赛的任务是将数据映射到文本。训练数据由数据/文本对组成，其中数据是从DBpedia提取的三元组集合，文本是这些三元组的文本化表示。

提供机构：

webnlg

原始信息汇总

数据集卡片 - WebNLG 2023挑战赛

数据集描述

数据集摘要

WebNLG 2023挑战赛专注于四种资源不足的语言，即马耳他语、爱尔兰语、布列塔尼语和威尔士语，这些语言在文本生成研究中严重不足。此外，WebNLG 2023再次包括俄语，这是首次在WebNLG 2020中出现。

挑战赛聚焦于RDF到文本的生成，类似于WebNLG 2017，但针对布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语。

挑战赛包括将数据映射到文本。训练数据由数据/文本对组成，其中数据是从DBpedia提取的三元组集，文本是这些三元组的口头表达。

例如，给定4个RDF三元组：

目标是生成一个文本，例如（英语文本）：

Trane, which was founded on January 1st 1913 in La Crosse, Wisconsin, is based in Ireland. It has 29,000 employees.

或（俄语文本）：

Компания "Тране", основанная 1 января 1913 года в Ла-Кроссе в штате Висконсин, находится в Ирландии. В компании работают 29 тысяч человек.

支持的任务和排行榜

该数据集支持结构化到文本的任务，要求模型接受来自数据库（DBpedia）的RDF（资源描述格式）三元组集作为输入，并写出表达三元组中包含信息的自然语言句子。

该数据集用于WebNLG 2023挑战赛。

结果通过自动指标进行评估：BLEU、METEOR、ChrF++、TER和BERTscore。此外，结果还根据语法正确性、适当性、流畅性等标准由母语者进行评估。

语言

数据集包括布列塔尼语（br）、威尔士语（cy）、爱尔兰语（ga）、马耳他语（mt）和俄语（ru）。

数据集结构

数据实例

一个典型示例包含原始RDF三元组集、修改后的版本（呈现给众包工作者）以及这些三元组集的可能口头表达：

{category: Airport, size: 1, eid: 1, original_triple_sets: {otriple_set: [[Aarhus_Airport | cityServed | "Aarhus, Denmark"@en]]}, modified_triple_sets: {mtriple_set: [[Aarhus_Airport | cityServed | "Aarhus, Denmark"]]}, shape: (X (X)), shape_type: NA, lex: {comment: [good, good, , ], lid: [Id1, Id2, Id3, Id3], text: [Aarhus a zo an aro-vezh Aarhus., "Aarhus a servijit ar chêr Aarhus.", The Aarhus is the airport of Aarhus, Denmark., Aarhus Airport serves the city of Aarhus, Denmark.], lang: [br, br, en, en]}}

数据字段

实例中包含以下字段：

category：DBpedia实体在RDF三元组中的类别。
eid：示例ID，仅在每个类别中每个拆分唯一。
size：集合中RDF三元组的数量。
shape：（自v2起）每个RDF三元组集是一个树，由其形状和形状类型表征。shape是用嵌套括号表示树的字符串，其中X是一个节点（参见Newick树格式）。
shape_type：（自v2起）树形状的类型，可以是：chain（一个三元组的对象是另一个三元组的主体）；sibling（共享主体的三元组）；mixed（同时存在链和兄弟类型）。
test_category：（对于webnlg_challenge_2017和v3）指示RDF三元组集是否出现在训练集中。测试集有几种拆分方式：有和没有参考，以及用于RDF到文本生成/用于语义解析。
lex：词汇化，包含：
- text：要预测的文本。
- lid：词汇化ID，每个示例唯一。
- comment：词汇化由众包工作者评级为good或bad。
- lang：（对于release_v3.0_ru）使用的语言，因为原始英语文本保留在俄语版本中。

数据拆分

数据集拆分为训练和验证：

语言	训练	验证
br	13211	1399
cy	13211	1665
ga	13211	1665
mt	13211	1665
ru	5573	790

数据集创建

策划理由

WebNLG数据集的创建旨在促进RDF口头表达器和能够处理广泛语言结构的微规划器的发展。数据集旨在涵盖不同领域的知识（“类别”）。相同的属性和实体可以出现在多个类别中。

源数据

数据从原始DBpedia三元组编译而来。这篇论文解释了三元组的选择方式。

初始数据收集和规范化

从DBpedia提取的初始三元组经过多次修改。有关最常见的更改，请参阅官方文档。原始三元组集和修改后的三元组集通常表示一对一映射。然而，在多个原始三元组集映射到一个修改后的三元组集的情况下，存在多对一映射。

作为RDF树根的实体列在此文件中。

用于训练的英语WebNLG 2020数据集（v3.0）包含16个不同DBpedia类别的数据-文本对：

2017版本中使用的10个已见类别：机场、宇航员、建筑、城市、漫画角色、食物、纪念碑、体育队伍、大学和书面作品。
2017年的5个未见类别，现在已成为已见数据：运动员、艺术家、天体、交通工具、政治家。
1个新类别：公司。

俄语数据集（v3.0）包含9个不同类别的数据-文本对：机场、宇航员、建筑、天体、漫画角色、食物、纪念碑、体育队伍和大学。

源语言生产者

没有源文本，所有文本材料都是在注释过程中编译的。

注释

注释过程

注释者首先被要求创建口头表达单个三元组的句子。在第二轮中，注释者被要求将单个三元组句子组合成覆盖2个三元组的句子。以此类推，直到7个三元组。质量检查是为了确保注释的质量。参见数据集论文的第3.3节。

俄语数据是从英语通过MT系统翻译，然后由众包工作者进行后期编辑。参见这篇论文的第2.2节。

注释者

所有参考文献都是通过众包平台（CrowdFlower/Figure 8和Amazon Mechanical Turk）收集的。对于俄语，后期编辑是通过Yandex.Toloka众包平台完成的。

个人和敏感信息

数据集的发布或注释过程不涉及收集或共享任何类型的个人/人口统计信息。

使用数据的考虑

数据集的社会影响

我们不预见该数据集或任务有任何特定的负面社会影响。

积极的展望：能够从RDF数据生成高质量文本将允许，例如，使这些数据对普通用户更易于访问，丰富现有文本与从知识库（如DBpedia）提取的信息，描述、比较和关联这些知识库中的实体。

讨论偏见

该数据集使用DBpedia RDF三元组创建，自然会表现出在维基百科中发现的偏见，例如某些形式的性别偏见。

实体的选择未受控制。因此，它们可能包含性别偏见；例如，所有由RDF三元组描述的宇航员都是男性。因此，在文本中，代词_he/him/his_出现的频率更高。类似地，实体可能与西方文化更频繁地相关联。

其他已知限制

众包参考文献的质量有限，特别是在流畅性/自然性方面。

俄语数据是通过机器翻译然后由众包工作者后期编辑的，因此一些示例可能仍然存在与糟糕翻译相关的问题。

附加信息

数据集策展人

数据集的主要策展人是Anastasia Shimorina（洛林大学/LORIA，法国）。在WebNLG版本的构建过程中，有几个人做出了贡献：Claire Gardent（CNRS/LORIA，法国），Shashi Narayan（谷歌，英国），Laura Perez-Beltrachini（爱丁堡大学，英国），Elena Khasanova和Thiago Castro Ferreira（联邦大学米纳斯吉拉斯，巴西）。数据集的构建得到了法国国家研究机构（ANR）的资助。

许可信息

数据集使用cc-by-nc-sa-4.0许可。源DBpedia项目使用cc-by-sa-3.0和gfdl-1.1许可。

引用信息

如果您使用WebNLG语料库，请引用：

@inproceedings{web_nlg, author = {Claire Gardent and Anastasia Shimorina and Shashi Narayan and Laura Perez{-}Beltrachini}, editor = {Regina Barzilay and Min{-}Yen Kan}, title = {Creating Training Corpora for {NLG} Micro-Planners}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers}, pages = {179--188}, publisher = {Association for Computational Linguistics}, year = {2017}, url = {https://doi.org/10.18653/v1/P17-1017}, doi = {10.18653/v1/P17-1017} }

贡献

感谢@albertvillanova添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集