GEM/surface_realisation_st_2020

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/surface_realisation_st_2020

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于多语言表面生成共享任务，支持11种语言（阿拉伯语、中文、英语、法语、印地语、印尼语、日语、韩语、葡萄牙语、俄语、西班牙语）。数据集的主要任务是从完整的或部分的通用依赖结构中重建自然语言。数据集的结构包括输入树、目标句子和唯一ID等字段。数据集的创建者包括多个大学和公司的研究人员，数据集的主要用途是训练模型解决自然语言生成任务，如功能词引入、形态一致性解决、词序确定和屈折生成等。

提供机构：

GEM

原始信息汇总

数据集概述

数据集描述

基本信息

名称: surface_realisation_st_2020
语言: 阿拉伯语, 中文, 英语, 法语, 印地语, 印度尼西亚语, 日语, 韩语, 葡萄牙语, 俄语, 西班牙语
许可证: cc-by-2.5
任务类别: 表到文本
主要任务: 数据到文本

数据集摘要

该数据集用于多语言表面实现共享任务，模型接收完整或部分的通用依赖结构，并需要重建自然语言。支持11种语言。

数据集结构

数据字段

input (字符串): 包含CoNLL-U格式的输入树。
target_tokenized (字符串): 目标句子生成，每个非初始和非最终标记由两个空格包围。
target (字符串): 去标记化的目标句子生成。
gem_id (字符串): 唯一ID。
sentence_id (字符串): 原始句子在UD数据集中的ID。

数据分割

训练集: 29个，对应20个UD数据集。
开发集: 29个，对应训练集。
测试集: 29个，对应训练集。
其他测试集: 13个，包括域外测试和自动解析测试。

使用许可

许可证: cc-by-2.5

预期用途

用于训练模型解决多个NLG子任务，如功能词引入、形态学协议解析、词序确定和屈折生成。

数据集创建者

Simon Mille (Pompeu Fabra University)
Leo Wanner (Pompeu Fabra University)
Anya Belz (Brighton University)
Bernd Bohnet (Google Inc.)
Thiago Castro Ferreira (Federal University of Minas Gerais)
Yvette Graham (ADAPT/Trinity College Dublin)

资金来源

主要由欧盟通过H2020项目资助。

数据集在GEM中的理由

包含不同语言家族的语言，包括在NLG中不常用的语言。
提出两个任务，可单独或一次性解决，难度不同。
包含多种大小的数据集，包括干净和噪声数据，多语言平行数据，以及许多可用的系统输出作为基准。

5,000+

优质数据集

54 个

任务类型

进入经典数据集