Feriji Dataset

arXiv2024-06-18 更新2024-06-12 收录

下载链接：

https://github.com/27-GROUP/Feriji/tree/main/feriji/zar_fr_sentences

下载链接

链接失效反馈

官方服务：

资源简介：

Feriji Dataset是一个专为机器翻译任务设计的法语-扎尔马语平行语料库，由阿什西大学和罗切斯特理工学院的研究团队创建。该数据集包含61,085条扎尔马语句子和42,789条法语句子，所有句子均进行了精确的对齐处理。数据集的创建过程涉及广泛的数据收集、对齐和清洗，确保了数据的质量和适用性。Feriji Dataset不仅填补了扎尔马语在机器翻译领域的资源空白，还促进了这一非洲本土语言在研究领域的应用，旨在解决语言资源不足和促进文化传承的问题。

Feriji Dataset is a French-Zarma parallel corpus specifically designed for machine translation tasks, created by research teams from Ashi University and Rochester Institute of Technology. This dataset contains 61,085 Zarma sentences and 42,789 French sentences, with all sentence pairs being precisely aligned. The dataset creation process involves extensive data collection, alignment and cleaning, ensuring data quality and applicability. The Feriji Dataset not only fills the resource gap of Zarma in the field of machine translation, but also promotes the application of this African indigenous language in research, aiming to address the issue of insufficient language resources and facilitate cultural heritage preservation.

提供机构：

阿什西大学罗切斯特理工学院

创建时间：

2024-06-10

搜集汇总

数据集介绍

构建方式

Feriji数据集的构建过程涉及多源数据的收集与对齐，主要包括宗教文本、和平队材料以及通过ChatGPT生成的故事。为确保数据的准确性和一致性，研究团队采用了自动化脚本进行数据清洗和对齐，并进一步通过母语为Zarma的志愿者进行人工审核。这一过程不仅确保了数据的质量，还为机器翻译任务提供了可靠的双语平行语料库。

特点

Feriji数据集包含61,085句Zarma语和42,789句法语的平行句子，覆盖了794,709个法语单词和847,362个Zarma单词。法语部分表现出更高的词汇多样性，拥有21,592个独特单词，而Zarma部分则有9,902个独特单词。此外，数据集还附带了一个包含4,062个单词的词汇表，为法语和Zarma之间的翻译提供了重要支持。这一数据集的特点在于其规模和对低资源语言的关注，填补了Zarma语在机器翻译领域的空白。

使用方法

Feriji数据集主要用于法语与Zarma语之间的机器翻译任务。研究人员可以通过该数据集训练和评估多语言翻译模型，如MT5-small、M2M100和NLLB-200-dist。数据集按80/10/10的比例划分为训练集、验证集和测试集，便于模型的训练与性能评估。此外，词汇表的使用可以辅助翻译模型的开发，提升翻译的准确性和流畅性。Feriji数据集不仅适用于学术研究，还可用于开发面向Zarma语社区的翻译工具，促进该语言在教育、医疗和文化保护等领域的应用。

背景与挑战

背景概述

Feriji数据集是首个专门为机器翻译任务设计的法语-扎尔马语平行语料库和词汇表，由Mamadou K. KEITA等人于2024年发布。该数据集包含61,085个扎尔马语句子和42,789个法语句子，旨在解决非洲语言在机器翻译领域中的资源匮乏问题。扎尔马语是尼日尔及其周边地区超过500万人使用的语言，属于尼罗-撒哈拉语系的桑海语族。尽管近年来机器翻译技术取得了显著进展，但非洲语言的代表性仍然不足，尤其是像扎尔马语这样的低资源语言。Feriji数据集的发布填补了这一空白，为扎尔马语的机器翻译研究提供了宝贵的资源，推动了该语言在全球机器翻译领域的应用。

当前挑战

Feriji数据集面临的挑战主要集中在两个方面。首先，扎尔马语作为一种低资源语言，其复杂的语言结构和有限的可用资源使得构建高质量的平行语料库变得尤为困难。数据集的创建过程中，研究人员需要从多种来源收集文本，包括宗教文献、和平队材料以及通过ChatGPT生成的文本，随后进行对齐和清理。这一过程不仅耗时，还需要依赖母语者的专业知识来确保翻译的准确性。其次，尽管Feriji数据集为扎尔马语的机器翻译提供了基础，但其规模和质量仍需进一步提升。现有的数据集在词汇多样性和句子长度分布上存在不平衡，尤其是扎尔马语的词汇量远低于法语，这限制了模型在翻译任务中的表现。此外，如何确保翻译的流畅性和文化敏感性，尤其是在处理扎尔马语这种与当地文化紧密相关的语言时，也是一个持续的挑战。

常用场景

经典使用场景

Feriji数据集在机器翻译领域具有广泛的应用，尤其是在法语与扎尔马语之间的平行语料库构建中。该数据集通过提供大量对齐的法语和扎尔马语句子，为研究人员和开发者提供了丰富的训练数据，使得基于神经网络的机器翻译模型能够更好地处理这两种语言之间的转换。Feriji数据集的使用场景主要集中在多语言翻译模型的训练与评估，尤其是在低资源语言（如扎尔马语）的翻译任务中，展现了其独特的价值。

衍生相关工作

Feriji数据集的推出催生了一系列相关研究和工作，尤其是在低资源语言机器翻译领域。基于Feriji数据集，研究人员开发了多个翻译模型，如MT5-small、M2M100和NLLB-200-dist，这些模型在法语-扎尔马语翻译任务中表现出色。此外，Feriji还启发了其他非洲语言的平行语料库构建工作，推动了非洲语言在机器翻译领域的研究进展。Feriji的成功经验也为其他低资源语言的翻译系统开发提供了宝贵的参考，促进了全球语言多样性的保护与研究。

数据集最近研究