Jojajovai Guarani-Spanish Parallel Corpus

github2022-07-05 更新2024-05-31 收录

下载链接：

https://github.com/pln-fing-udelar/jojajovai

下载链接

链接失效反馈

官方服务：

资源简介：

Jojajovai是一个包含约30,000个Guarani-Spanish平行句对的数据集，由多个不同来源的子集组成。该数据集是多个大学研究人员的合作成果，旨在用于机器翻译系统的训练、测试和分析。数据集包含训练、开发和测试集，部分句子由母语者进行了手动标注，以包含关于Guarani方言和翻译对准确性的元语言标注。

Jojajovai is a dataset comprising approximately 30,000 Guarani-Spanish parallel sentence pairs, assembled from multiple diverse sources. This collaborative effort by researchers from several universities is designed for the training, testing, and analysis of machine translation systems. The dataset includes training, development, and test sets, with some sentences manually annotated by native speakers to include metalinguistic annotations regarding Guarani dialects and the accuracy of translation pairs.

创建时间：

2022-04-26

原始信息汇总

数据集概述

数据集名称

Jojajovai Guarani-Spanish Parallel Corpus

数据集描述

Jojajovai是一个包含约30,000对句子的Guarani-Spanish平行语料库，由多个来源的子集组成。该语料库是多个研究机构合作的结果，包括乌拉圭的Universidad de la República、巴拉圭的Universidad Nacional de Itapúa、巴西的Universidade Tecnológica Federal do Paraná、西班牙的Universidad de Granada和Universitat Oberta de Catalunya。

数据集结构

数据集被组织为来自不同来源的子集，进一步分为训练集、开发集和测试集。测试集中的句子样本由母语者手动标注，以包含关于Guarani方言和翻译对齐正确性的元语言标注。

数据集使用

该数据集不仅可用于训练机器翻译系统，还可用于测试和根据不同子集分析结果。

数据集内容

来源	句子对数	训练集	开发集	测试集
abc	16,492	11,550	2,470	2,472
anlp	2,000	-	996	1,004
blogs	2,444	1,712	361	371
hackaton	513	359	77	77
libro_gn	1,423	992	215	216
libro_td	1,016	711	153	152
seminario	2,179	1,535	322	322
spl	4,788	3,348	720	720
Total	30,855	20,207	5,314	5,334

标注信息

数据集包含由三位母语标注者对每个子集的句子对样本进行的标注，标注内容包括Guarani句子的方言（标准Guarani、Jopara、Jehea或其他）和翻译对的正确性分类。

引用信息

若使用此数据集，请引用以下文献：

Luis Chiruzzo, Santiago Góngora, Aldo Alvarez, Gustavo Giménez-Lugo, Marvin Agüero-Torales, Yliana Rodríguez. (2022). Jojajovai: A Parallel Guarani-Spanish Corpus for MT Benchmarking. Proceedings of the 13th Language Resources and Evaluation Conference, LREC 2022.

搜集汇总

数据集介绍

构建方式

Jojajovai Guarani-Spanish平行语料库的构建源于多个研究机构的合作，包括乌拉圭共和国大学、巴拉圭伊塔普阿国立大学、巴西巴拉那联邦理工大学、西班牙格拉纳达大学以及西班牙加泰罗尼亚开放大学。该语料库整合了来自不同来源的约30,000句对，涵盖了训练集、开发集和测试集。为确保数据质量，测试集中的部分句子由母语者手动标注，以记录瓜拉尼方言的变体及翻译对齐的准确性。

特点

Jojajovai语料库的特点在于其多样化的数据来源和精细的标注体系。语料库不仅包含标准瓜拉尼语，还涵盖了Jopara、Jehe'a等方言变体。此外，语料库通过人工标注对翻译对齐的准确性进行了分类，包括完全匹配、西班牙语句子信息更多、瓜拉尼语句子信息更多以及句子不匹配四种情况。这种多层次的标注为机器翻译系统的训练和评估提供了丰富的语言学信息。

使用方法

Jojajovai语料库的使用方法包括直接下载语料库文件`jojajovai_all.csv`，其中包含了完整的平行句对数据。用户可通过`jojajovai_sample_annotations.csv`文件访问人工标注的样本数据。使用该数据集时，需引用相关文献以尊重研究者的贡献。语料库不仅适用于机器翻译系统的训练，还可用于测试和结果分析，特别是在不同方言和翻译准确性的粒度上进行深入研究。

背景与挑战

背景概述

Jojajovai Guarani-Spanish Parallel Corpus 是一个包含约30,000句对的瓜拉尼语-西班牙语平行语料库，由乌拉圭共和国大学、巴拉圭伊塔普阿国立大学、巴西巴拉那联邦理工大学、西班牙格拉纳达大学和西班牙加泰罗尼亚开放大学的研究人员共同合作创建。该语料库旨在为机器翻译系统的训练和测试提供高质量的双语数据，并支持对瓜拉尼语方言和翻译对齐的深入分析。语料库的结构化设计使其能够根据不同的子集进行多层次的粒度分析，从而为语言资源评估和机器翻译研究提供了重要的基础数据。该数据集于2022年发布，并在第13届语言资源与评估会议（LREC 2022）上首次亮相，迅速成为瓜拉尼语研究领域的重要资源。

当前挑战

Jojajovai语料库的构建面临多重挑战。首先，瓜拉尼语作为一种低资源语言，其方言多样性和语言结构的复杂性使得数据收集和标注工作尤为困难。研究人员需要依赖母语者的专业知识来确保翻译对齐的准确性和方言信息的正确标注。其次，语料库的构建涉及多个来源的数据整合，不同来源的文本风格和质量差异较大，这对数据清洗和标准化提出了较高要求。此外，机器翻译系统在处理低资源语言时通常表现不佳，如何利用有限的语料库资源提升翻译模型的性能，是该数据集应用中的核心挑战之一。最后，语料库的标注工作依赖于人工，尽管通过多轮标注和验证确保了数据的可靠性，但这一过程耗时且成本高昂，限制了数据集的进一步扩展。

常用场景

经典使用场景

Jojajovai Guarani-Spanish平行语料库在机器翻译领域具有广泛的应用，尤其是在训练和评估Guarani与西班牙语之间的翻译模型时。该数据集通过提供约30,000句对的平行文本，涵盖了多种来源和方言，使得研究人员能够在不同粒度上分析翻译系统的表现。其独特的元语言注释进一步增强了数据集在方言识别和翻译质量评估中的实用性。

衍生相关工作

基于Jojajovai数据集，多项经典研究工作得以展开，包括Guarani方言分类、翻译质量评估以及低资源语言机器翻译模型的优化。例如，研究人员利用该数据集开发了基于神经网络的Guarani-Spanish翻译系统，并在LREC等国际会议上发表了相关成果。这些工作不仅提升了Guarani语言的机器翻译水平，还为其他低资源语言的翻译研究提供了方法论上的借鉴。

数据集最近研究