Guinea-Bissau Creole-English-Portuguese Parallel Sentences Dataset

Name: Guinea-Bissau Creole-English-Portuguese Parallel Sentences Dataset
Creator: 爱丁堡大学, 谢菲尔德大学
Published: 2025-04-03 23:14:19
License: 暂无描述

arXiv2025-04-03 更新2025-04-07 收录

下载链接：

https://www.bible.com, https://www.jw.org/en/library/magazines/, https://www.editora.ufpb.br/sistema/press5/index.php/UFPB/catalog/download/705/941/8096-1?inline=1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由爱丁堡大学和谢菲尔德大学共同创建的，包含大约40,000个 Guinea-Bissau Creole（基里奥尔语）、英语和葡萄牙语平行句子。数据主要由宗教文本（来自圣经和耶和华见证人的文本）组成，同时也包含一些通用领域的数据（来自词典）。该数据集旨在为机器翻译模型提供资源，并研究如何将这些模型最佳地应用于非宗教领域。

This dataset was jointly developed by the University of Edinburgh and the University of Sheffield, containing approximately 40,000 parallel sentence pairs across Guinea-Bissau Creole (Kriol), English and Portuguese. The data primarily consists of religious texts, including the Bible and materials from Jehovah's Witnesses, as well as some general-domain data sourced from dictionaries. This dataset aims to provide resources for machine translation models and to investigate how to optimally apply such models to non-religious domains.

提供机构：

爱丁堡大学, 谢菲尔德大学

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

该数据集构建过程主要整合了来自三个关键来源的平行语料：圣经文本、耶和华见证人出版物以及葡萄牙语-几内亚比绍克里奥尔语双语词典。通过精确的HTML标签对齐技术处理段落级数据，并采用NLLB模型自动翻译词典条目，辅以人工校验确保质量。针对宗教与通用领域数据的分布特点，构建了包含38,578句三语平行语料及1,983条词汇项的语料库，其中通用领域数据占比4.2%，反映了低资源语言典型的数据分布特征。

使用方法

研究团队采用基于Transformer的编码器-解码器架构进行基线模型训练，使用SentencePiece实现BPE分词（词汇量10k）。通过控制变量实验验证了领域适应策略的有效性：在宗教数据训练基础上加入300句目标领域数据可使BLEU值提升4.0-6.7。建议使用者优先采用葡萄牙语-克里奥尔语方向（平均BLEU最高），并推荐共享嵌入空间策略（较分离嵌入提升23.6%性能）。为保障研究伦理，数据集需通过申请获取，且明确限制用于大规模多语言模型的未经授权训练。

背景与挑战

背景概述

Guinea-Bissau Creole-English-Portuguese Parallel Sentences Dataset是由爱丁堡大学和谢菲尔德大学的研究人员Jacqueline Rowe、Edward Gow-Smith和Mark Hepple于2025年创建的一个多语言平行语料库，旨在支持几内亚比绍克里奥尔语（Kiriol）的机器翻译研究。该数据集包含约4万句平行句子，主要来源于宗教文本（如圣经和耶和华见证人的出版物），以及少量通用领域的词典数据。这一数据集的建立填补了克里奥尔语在数字资源和机器翻译技术中的空白，为低资源语言的机器翻译研究提供了重要资源。

当前挑战

该数据集面临的主要挑战包括：1) 领域适应性问题：由于数据主要来源于宗教文本，模型在非宗教领域的翻译表现受限；2) 数据稀缺性：克里奥尔语作为低资源语言，可用的平行语料极为有限；3) 语言特性差异：克里奥尔语与葡萄牙语和英语在词汇和形态上的差异影响了翻译模型的性能；4) 数据构建挑战：在数据收集和标注过程中，需要处理版权问题以及确保翻译质量的一致性。

常用场景

经典使用场景

Guinea-Bissau Creole-English-Portuguese Parallel Sentences Dataset在机器翻译领域具有重要应用，尤其在低资源语言的翻译任务中表现突出。该数据集主要由宗教文本（如圣经和耶和华见证人的出版物）和少量通用领域数据（如双语词典）组成，为几内亚比绍克里奥尔语（Kiriol）的翻译研究提供了宝贵的资源。经典使用场景包括训练基于Transformer的翻译模型，探索如何从宗教领域数据向通用领域进行有效的领域迁移。

解决学术问题

该数据集解决了低资源语言机器翻译中的核心学术问题，特别是在数据稀缺的情况下如何提升翻译性能。研究表明，即使在训练数据中加入少量目标领域的句子（如300句），也能显著提高翻译质量。此外，该数据集还揭示了葡萄牙语到Kiriol的翻译模型平均表现优于其他语言对，这与Kiriol和葡萄牙语之间的词汇重叠和形态复杂性密切相关。这些发现为低资源语言的机器翻译研究提供了重要启示。

实际应用

在实际应用中，该数据集为几内亚比绍克里奥尔语的机器翻译工具开发奠定了基础。通过结合宗教文本和通用领域数据，研究人员能够构建更具实用性的翻译模型，支持克里奥尔语使用者在教育、医疗和日常交流中的语言需求。此外，该数据集还为其他低资源语言的翻译研究提供了可借鉴的方法，尤其是在数据收集和模型优化方面。

数据集最近研究