five

webnlg/challenge-2023

收藏
Hugging Face2023-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/webnlg/challenge-2023
下载链接
链接失效反馈
官方服务:
资源简介:
WebNLG 2023挑战赛的数据集专注于四种资源匮乏的语言,这些语言在文本生成研究中严重不足,包括马耳他语、爱尔兰语、布列塔尼语和威尔士语。此外,WebNLG 2023再次包括俄语,该语言首次出现在WebNLG 2020中。挑战赛的重点是RDF到文本的生成,类似于WebNLG 2017,但针对布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语。挑战赛的任务是将数据映射到文本。训练数据由数据/文本对组成,其中数据是从DBpedia提取的三元组集合,文本是这些三元组的文本化表示。

WebNLG 2023挑战赛的数据集专注于四种资源匮乏的语言,这些语言在文本生成研究中严重不足,包括马耳他语、爱尔兰语、布列塔尼语和威尔士语。此外,WebNLG 2023再次包括俄语,该语言首次出现在WebNLG 2020中。挑战赛的重点是RDF到文本的生成,类似于WebNLG 2017,但针对布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语。挑战赛的任务是将数据映射到文本。训练数据由数据/文本对组成,其中数据是从DBpedia提取的三元组集合,文本是这些三元组的文本化表示。
提供机构:
webnlg
原始信息汇总

数据集卡片 - WebNLG 2023挑战赛

数据集描述

数据集摘要

WebNLG 2023挑战赛专注于四种资源不足的语言,即马耳他语、爱尔兰语、布列塔尼语和威尔士语,这些语言在文本生成研究中严重不足。此外,WebNLG 2023再次包括俄语,这是首次在WebNLG 2020中出现。

挑战赛聚焦于RDF到文本的生成,类似于WebNLG 2017,但针对布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语。

挑战赛包括将数据映射到文本。训练数据由数据/文本对组成,其中数据是从DBpedia提取的三元组集,文本是这些三元组的口头表达。

例如,给定4个RDF三元组:

<entry category="Company" eid="Id21" shape="(X (X) (X) (X) (X))" shape_type="sibling" size="4"> <modifiedtripleset> <mtriple>Trane | foundingDate | 1913-01-01</mtriple> <mtriple>Trane | location | Ireland</mtriple> <mtriple>Trane | foundationPlace | La_Crosse,_Wisconsin</mtriple> <mtriple>Trane | numberOfEmployees | 29000</mtriple> </modifiedtripleset> </entry>

目标是生成一个文本,例如(英语文本):

Trane, which was founded on January 1st 1913 in La Crosse, Wisconsin, is based in Ireland. It has 29,000 employees.

或(俄语文本):

Компания "Тране", основанная 1 января 1913 года в Ла-Кроссе в штате Висконсин, находится в Ирландии. В компании работают 29 тысяч человек.

支持的任务和排行榜

该数据集支持结构化到文本的任务,要求模型接受来自数据库(DBpedia)的RDF(资源描述格式)三元组集作为输入,并写出表达三元组中包含信息的自然语言句子。

该数据集用于WebNLG 2023挑战赛。

结果通过自动指标进行评估:BLEUMETEORChrF++TERBERTscore。此外,结果还根据语法正确性、适当性、流畅性等标准由母语者进行评估。

语言

数据集包括布列塔尼语(br)、威尔士语(cy)、爱尔兰语(ga)、马耳他语(mt)和俄语(ru)。

数据集结构

数据实例

一个典型示例包含原始RDF三元组集、修改后的版本(呈现给众包工作者)以及这些三元组集的可能口头表达:

{category: Airport, size: 1, eid: 1, original_triple_sets: {otriple_set: [[Aarhus_Airport | cityServed | "Aarhus, Denmark"@en]]}, modified_triple_sets: {mtriple_set: [[Aarhus_Airport | cityServed | "Aarhus, Denmark"]]}, shape: (X (X)), shape_type: NA, lex: {comment: [good, good, , ], lid: [Id1, Id2, Id3, Id3], text: [Aarhus a zo an aro-vezh Aarhus., "Aarhus a servijit ar chêr Aarhus.", The Aarhus is the airport of Aarhus, Denmark., Aarhus Airport serves the city of Aarhus, Denmark.], lang: [br, br, en, en]}}

数据字段

实例中包含以下字段:

  • category:DBpedia实体在RDF三元组中的类别。
  • eid:示例ID,仅在每个类别中每个拆分唯一。
  • size:集合中RDF三元组的数量。
  • shape:(自v2起)每个RDF三元组集是一个树,由其形状和形状类型表征。shape是用嵌套括号表示树的字符串,其中X是一个节点(参见Newick树格式)。
  • shape_type:(自v2起)树形状的类型,可以是:chain(一个三元组的对象是另一个三元组的主体);sibling(共享主体的三元组);mixed(同时存在链和兄弟类型)。
  • test_category:(对于webnlg_challenge_2017v3)指示RDF三元组集是否出现在训练集中。测试集有几种拆分方式:有和没有参考,以及用于RDF到文本生成/用于语义解析。
  • lex:词汇化,包含:
    • text:要预测的文本。
    • lid:词汇化ID,每个示例唯一。
    • comment:词汇化由众包工作者评级为goodbad
    • lang:(对于release_v3.0_ru)使用的语言,因为原始英语文本保留在俄语版本中。

数据拆分

数据集拆分为训练和验证:

语言 训练 验证
br 13211 1399
cy 13211 1665
ga 13211 1665
mt 13211 1665
ru 5573 790

数据集创建

策划理由

WebNLG数据集的创建旨在促进RDF口头表达器和能够处理广泛语言结构的微规划器的发展。数据集旨在涵盖不同领域的知识(“类别”)。相同的属性和实体可以出现在多个类别中。

源数据

数据从原始DBpedia三元组编译而来。这篇论文解释了三元组的选择方式。

初始数据收集和规范化

从DBpedia提取的初始三元组经过多次修改。有关最常见的更改,请参阅官方文档。原始三元组集和修改后的三元组集通常表示一对一映射。然而,在多个原始三元组集映射到一个修改后的三元组集的情况下,存在多对一映射。

作为RDF树根的实体列在此文件中。

用于训练的英语WebNLG 2020数据集(v3.0)包含16个不同DBpedia类别的数据-文本对:

  • 2017版本中使用的10个已见类别:机场、宇航员、建筑、城市、漫画角色、食物、纪念碑、体育队伍、大学和书面作品。
  • 2017年的5个未见类别,现在已成为已见数据:运动员、艺术家、天体、交通工具、政治家。
  • 1个新类别:公司。

俄语数据集(v3.0)包含9个不同类别的数据-文本对:机场、宇航员、建筑、天体、漫画角色、食物、纪念碑、体育队伍和大学。

源语言生产者

没有源文本,所有文本材料都是在注释过程中编译的。

注释

注释过程

注释者首先被要求创建口头表达单个三元组的句子。在第二轮中,注释者被要求将单个三元组句子组合成覆盖2个三元组的句子。以此类推,直到7个三元组。质量检查是为了确保注释的质量。参见数据集论文的第3.3节。

俄语数据是从英语通过MT系统翻译,然后由众包工作者进行后期编辑。参见这篇论文的第2.2节。

注释者

所有参考文献都是通过众包平台(CrowdFlower/Figure 8和Amazon Mechanical Turk)收集的。对于俄语,后期编辑是通过Yandex.Toloka众包平台完成的。

个人和敏感信息

数据集的发布或注释过程不涉及收集或共享任何类型的个人/人口统计信息。

使用数据的考虑

数据集的社会影响

我们不预见该数据集或任务有任何特定的负面社会影响。

积极的展望:能够从RDF数据生成高质量文本将允许,例如,使这些数据对普通用户更易于访问,丰富现有文本与从知识库(如DBpedia)提取的信息,描述、比较和关联这些知识库中的实体。

讨论偏见

该数据集使用DBpedia RDF三元组创建,自然会表现出在维基百科中发现的偏见,例如某些形式的性别偏见。

实体的选择未受控制。因此,它们可能包含性别偏见;例如,所有由RDF三元组描述的宇航员都是男性。因此,在文本中,代词_he/him/his_出现的频率更高。类似地,实体可能与西方文化更频繁地相关联。

其他已知限制

众包参考文献的质量有限,特别是在流畅性/自然性方面。

俄语数据是通过机器翻译然后由众包工作者后期编辑的,因此一些示例可能仍然存在与糟糕翻译相关的问题。

附加信息

数据集策展人

数据集的主要策展人是Anastasia Shimorina(洛林大学/LORIA,法国)。在WebNLG版本的构建过程中,有几个人做出了贡献:Claire Gardent(CNRS/LORIA,法国),Shashi Narayan(谷歌,英国),Laura Perez-Beltrachini(爱丁堡大学,英国),Elena Khasanova和Thiago Castro Ferreira(联邦大学米纳斯吉拉斯,巴西)。数据集的构建得到了法国国家研究机构(ANR)的资助。

许可信息

数据集使用cc-by-nc-sa-4.0许可。源DBpedia项目使用cc-by-sa-3.0gfdl-1.1许可。

引用信息

如果您使用WebNLG语料库,请引用:

@inproceedings{web_nlg, author = {Claire Gardent and Anastasia Shimorina and Shashi Narayan and Laura Perez{-}Beltrachini}, editor = {Regina Barzilay and Min{-}Yen Kan}, title = {Creating Training Corpora for {NLG} Micro-Planners}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers}, pages = {179--188}, publisher = {Association for Computational Linguistics}, year = {2017}, url = {https://doi.org/10.18653/v1/P17-1017}, doi = {10.18653/v1/P17-1017} }

贡献

感谢@albertvillanova添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作