FLORES Evaluation Datasets

Name: FLORES Evaluation Datasets
Creator: Facebook AI Research
Published: 2019-09-15 03:09:55
License: 暂无描述

arXiv2019-09-15 更新2024-06-21 收录

下载链接：

https://github.com/facebookresearch/flores

下载链接

链接失效反馈

官方服务：

资源简介：

FLORES评估数据集是由Facebook AI Research创建的，用于评估低资源机器翻译系统的性能。该数据集包含尼泊尔语-英语和僧伽罗语-英语两种语言对，基于维基百科文章翻译而成。数据集分为调优集、开发集和测试集，总计包含15182条句子。创建过程中，采用了专业的翻译和严格的质量检查，确保翻译质量。该数据集适用于机器翻译领域的研究，特别是针对低资源语言对的翻译性能评估。

The FLORES Evaluation Dataset was created by Facebook AI Research to evaluate the performance of low-resource machine translation systems. This dataset covers two language pairs: Nepali-English and Sinhala-English, and is constructed based on translated Wikipedia articles. The dataset is divided into a tuning set, a development set and a test set, containing a total of 15,182 sentence pairs. During its creation, professional translation work and strict quality checks were adopted to ensure translation quality. This dataset is suitable for research in the field of machine translation, particularly for evaluating the translation performance of low-resource language pairs.

提供机构：

Facebook AI Research

创建时间：

2019-02-05

搜集汇总

数据集介绍

构建方式

FLORES Evaluation Datasets的构建基于从维基百科中提取的句子，并通过专业翻译人员进行翻译。数据集包括尼泊尔语-英语和僧伽罗语-英语两种低资源语言对。为了确保翻译质量，研究团队采用了自动和手动质量检查相结合的方法。自动过滤器基于语言模型和BLEU评分，手动过滤则通过多名评阅者对翻译的准确性和流畅性进行评分。最终，数据集被分为调优集、开发集和测试集，分别用于超参数调整、模型开发和最终评估。

特点

FLORES Evaluation Datasets的特点在于其专注于低资源语言对的机器翻译评估，尤其是尼泊尔语和僧伽罗语这两种语法和形态结构与英语差异较大的语言。数据集的多样性体现在其涵盖了从一般主题到历史、科学、宗教等多个领域的句子，且每个句子都经过多次翻译和严格的质量检查，确保了数据集的高质量和挑战性。

使用方法

FLORES Evaluation Datasets可用于评估和比较不同机器翻译模型的性能，尤其是在低资源语言对上的表现。用户可以通过调优集进行模型参数的调整，使用开发集进行模型开发和泛化性能的评估，最终通过测试集进行盲测。数据集支持多种训练设置，包括全监督、弱监督、半监督和全无监督，用户可以根据需求选择合适的训练方式进行实验。

背景与挑战

背景概述

FLORES Evaluation Datasets是由Facebook AI Research和Facebook Applied Machine Learning团队于2019年推出的低资源机器翻译评估数据集，专注于尼泊尔语-英语和僧伽罗语-英语的翻译任务。该数据集基于维基百科文章的翻译，旨在解决低资源语言对机器翻译中缺乏公开可用基准的问题。尼泊尔语和僧伽罗语由于其独特的形态和句法结构，且缺乏足够的平行数据，成为低资源语言翻译研究的理想测试平台。该数据集的发布为低资源机器翻译领域的研究提供了重要的评估基准，推动了相关技术的进步。

当前挑战

FLORES Evaluation Datasets面临的主要挑战包括：首先，低资源语言对缺乏足够的平行数据，导致模型在训练过程中难以有效利用监督信息。其次，构建高质量的评估基准需要大量的专业翻译，而低资源语言的翻译人员稀缺，翻译质量难以保证。此外，由于低资源语言的文档内容可能涉及特定文化背景，非母语者难以验证翻译的准确性。这些挑战使得当前最先进的机器翻译方法在该数据集上的表现不佳，BLEU分数较低，进一步凸显了低资源机器翻译研究的紧迫性和难度。

常用场景

经典使用场景

FLORES Evaluation Datasets 主要用于低资源机器翻译任务的评估，特别是尼泊尔语-英语和僧伽罗语-英语的翻译。该数据集基于维基百科的句子翻译，涵盖了多种语言结构和语法，适用于评估不同学习设置下的翻译模型，包括全监督、弱监督、半监督和全无监督的翻译系统。

解决学术问题

FLORES Evaluation Datasets 解决了低资源语言对机器翻译中缺乏公开可用基准的问题。通过提供高质量的翻译数据集，该数据集为研究人员提供了一个可靠的评估平台，帮助他们开发和比较针对低资源语言的翻译模型。这不仅推动了低资源机器翻译技术的发展，还为全球范围内使用这些语言的社区提供了技术支持。

衍生相关工作

FLORES Evaluation Datasets 的发布激发了大量相关研究工作，特别是在低资源机器翻译领域。许多研究者基于该数据集开发了新的翻译模型和方法，探索如何更有效地利用单语数据、噪声数据以及相关语言的平行数据。此外，该数据集还推动了无监督和半监督学习方法的发展，促进了多语言翻译系统的研究，进一步提升了低资源语言翻译的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集