PTradutor

Name: PTradutor
Creator: 葡萄牙波尔图大学
Published: 2025-02-20 17:20:59
License: 暂无描述

arXiv2025-02-20 更新2025-02-22 收录

下载链接：

https://huggingface.co/datasets/hugosousa/PTradutor

下载链接

链接失效反馈

官方服务：

资源简介：

PTradutor是一个为欧洲葡萄牙翻译任务创建的平行语料库，由葡萄牙波尔图大学等机构开发。该数据集包含1,719,002篇文档，是迄今为止最大的欧洲葡萄牙与英语平行语料库。数据集通过搜集欧洲葡萄牙文本，翻译成英语，再经过严格的质量控制与过滤处理而创建。PTradutor旨在为训练和评估面向低资源语言变体的机器翻译模型提供支持，解决特定语言变体的机器翻译问题。

PTradutor is a parallel corpus developed for European Portuguese-to-English machine translation tasks, constructed by institutions including the University of Porto in Portugal and other relevant organizations. This dataset contains 1,719,002 document pairs, making it the largest European Portuguese-to-English parallel corpus to date. The dataset was built by collecting European Portuguese source texts, translating them into English, and then subjecting the paired data to rigorous quality control and filtering procedures. PTradutor is designed to support the training and evaluation of machine translation models for low-resource language varieties, and to address machine translation challenges specific to particular language variants.

提供机构：

葡萄牙波尔图大学

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

为了解决低资源语言变体训练翻译模型时数据集稀缺的问题，我们提出了一个三步自动生成平行语料库的方法。首先，我们收集了大量用欧洲葡萄牙语撰写的文本。接着，我们使用翻译系统将这些文本从欧洲葡萄牙语翻译成英语，以创建一个平行语料库。最后，我们进行了过滤和质量检查，以确保数据集的完整性。这一过程创建了一个包含英语和欧洲葡萄牙语平行数据对的语料库，从而可以训练机器翻译系统。

特点

该数据集的特点包括：1. 它是迄今为止最大的欧洲葡萄牙语-英语翻译数据集，包含1,719,002个文档。2. 数据集覆盖了新闻、文学、网络、政治和法律等多个领域。3. 数据集经过精心筛选和清洗，确保了数据的质量。4. 该数据集是公开可用的，为研究低资源语言变体的机器翻译提供了宝贵的资源。

使用方法

使用该数据集的方法如下：1. 首先，从数据集中选择合适的文档进行训练。2. 使用翻译系统将欧洲葡萄牙语文本翻译成英语，以创建平行语料库。3. 对生成的平行语料库进行过滤和质量检查，以确保数据集的完整性。4. 使用训练好的翻译模型进行翻译任务。5. 可以使用多种指标评估翻译模型的性能，如BLEU、ROUGE-L和COMET等。

背景与挑战

背景概述

在当前语言模型技术飞速发展的背景下，一个显著的挑战是如何确保这些模型能够平等地服务于所有社区，特别是那些资源稀缺的语言变体。PTradutor数据集的创建正是为了解决这一问题。该数据集由葡萄牙波尔图大学、INESC TEC、海德堡大学计算机科学研究所等机构的研究人员共同开发，旨在为欧洲葡萄牙语提供一个专门的翻译模型。欧洲葡萄牙语由于使用人数较少，相较于巴西葡萄牙语，在资源丰富的语言模型中常常被忽视，导致在语言任务中的表现不佳。PTradutor数据集的创建填补了这一空白，为欧洲葡萄牙语提供了一个高质量的翻译模型，并在自动评估中展现出超越现有开源葡萄牙语翻译系统的性能，甚至接近行业领先的闭源系统的水平。该数据集的公开发布，旨在支持和鼓励进一步的研究，推动低资源语言变体的代表性发展。

当前挑战

PTradutor数据集的创建和翻译模型的训练面临了诸多挑战。首先，在低资源语言变体中，缺乏专门的数据集和模型，导致训练和评估困难。其次，构建高质量的数据集需要大量的人工标注数据，这在资源稀缺的语言中往往难以获得。为了克服这些挑战，研究人员采用了逆向翻译技术，将低资源语言变体的文本翻译成资源丰富的语言，然后使用这个新创建的平行语料库来微调预训练的语言模型。此外，由于现有的翻译系统大多针对巴西葡萄牙语，因此如何确保翻译结果符合欧洲葡萄牙语的语法和词汇也是一个挑战。为了解决这个问题，研究人员使用了一个语言变体分类模型来量化翻译模型的输出是否符合欧洲葡萄牙语的特点。尽管PTradutor数据集和翻译模型取得了显著的成果，但在未来，仍需要进一步研究不同的生成配置、提示优化以及进行人类评估，以进一步提高模型的性能和准确性。

常用场景

经典使用场景

PTradutor数据集主要应用于低资源语言变体的神经机器翻译(NMT)模型的开发和训练。该数据集通过利用现有的翻译模型，将低资源语言的文本翻译成资源丰富的语言，从而生成平行语料库。随后，利用这个平行语料库对预训练的语言模型进行微调，以实现针对特定语言变体的翻译任务。此外，该数据集还可以用于评估和比较不同翻译系统的性能，以及研究不同语言变体之间的差异。

实际应用

PTradutor数据集在实际应用中可以用于开发针对特定语言变体的翻译系统，例如欧洲葡萄牙语。这些翻译系统可以用于各种场景，如医疗、司法等领域，这些领域对语言的语法和词汇有很高的要求。此外，该数据集还可以用于生成特定语言变体的数据，以支持其他语言模型的研究和应用。

衍生相关工作

PTradutor数据集的发布激发了相关领域的研究工作。例如，一些研究开始探索如何利用PTradutor数据集来训练其他低资源语言变体的翻译模型。此外，一些研究也开始探索如何利用PTradutor数据集来提高现有翻译系统的性能，例如通过使用更先进的模型架构或训练方法。最后，一些研究也开始探索如何利用PTradutor数据集来研究不同语言变体之间的差异，以及如何更好地处理这些差异。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集