Jojajovai Guarani-Spanish Parallel Corpus
收藏数据集概述
数据集名称
Jojajovai Guarani-Spanish Parallel Corpus
数据集描述
Jojajovai是一个包含约30,000对句子的Guarani-Spanish平行语料库,由多个来源的子集组成。该语料库是多个研究机构合作的结果,包括乌拉圭的Universidad de la República、巴拉圭的Universidad Nacional de Itapúa、巴西的Universidade Tecnológica Federal do Paraná、西班牙的Universidad de Granada和Universitat Oberta de Catalunya。
数据集结构
数据集被组织为来自不同来源的子集,进一步分为训练集、开发集和测试集。测试集中的句子样本由母语者手动标注,以包含关于Guarani方言和翻译对齐正确性的元语言标注。
数据集使用
该数据集不仅可用于训练机器翻译系统,还可用于测试和根据不同子集分析结果。
数据集内容
| 来源 | 句子对数 | 训练集 | 开发集 | 测试集 |
|---|---|---|---|---|
| abc | 16,492 | 11,550 | 2,470 | 2,472 |
| anlp | 2,000 | - | 996 | 1,004 |
| blogs | 2,444 | 1,712 | 361 | 371 |
| hackaton | 513 | 359 | 77 | 77 |
| libro_gn | 1,423 | 992 | 215 | 216 |
| libro_td | 1,016 | 711 | 153 | 152 |
| seminario | 2,179 | 1,535 | 322 | 322 |
| spl | 4,788 | 3,348 | 720 | 720 |
| Total | 30,855 | 20,207 | 5,314 | 5,334 |
标注信息
数据集包含由三位母语标注者对每个子集的句子对样本进行的标注,标注内容包括Guarani句子的方言(标准Guarani、Jopara、Jehea或其他)和翻译对的正确性分类。
引用信息
若使用此数据集,请引用以下文献:
Luis Chiruzzo, Santiago Góngora, Aldo Alvarez, Gustavo Giménez-Lugo, Marvin Agüero-Torales, Yliana Rodríguez. (2022). Jojajovai: A Parallel Guarani-Spanish Corpus for MT Benchmarking. Proceedings of the 13th Language Resources and Evaluation Conference, LREC 2022.




