FLORES+
收藏arXiv2025-08-28 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/openlanguagedata/flores_plus
下载链接
链接失效反馈官方服务:
资源简介:
FLORES+是一个包含超过200种语言的英语到多语言翻译数据集,由NLLB项目创建,旨在为多语言机器翻译(MT)提供一个全面的评估基准。该数据集的创建过程遵循严格的质量控制标准,包括对翻译者和审稿人的资格要求。然而,研究发现FLORES+在多语言评估方面存在不足,如翻译质量低于90%的标准,源句子过于特定领域和文化偏向英语世界。因此,研究提出了改进多语言MT基准的三个方向:源句子应减少特定领域和技术性,基准应最小化命名实体在评估中的影响,内容应避免过度关注英语文化。
FLORES+ is an English-to-multilingual translation dataset covering over 200 languages, created by the NLLB project to provide a comprehensive evaluation benchmark for multilingual machine translation (MT). The dataset was developed in accordance with strict quality control standards, including qualification requirements for translators and reviewers. However, studies have found that FLORES+ has limitations in multilingual evaluation: its translation quality fails to meet the 90% standard, source sentences are overly domain-specific and culturally biased toward the English-speaking world. Therefore, three directions for improving multilingual MT benchmarks are proposed: source sentences should reduce domain-specific and technical content, the benchmark should minimize the impact of named entities in evaluations, and the content should avoid excessive focus on English-centric cultures.
提供机构:
圣母大学、华盛顿大学、东京外国语大学、奈良先端科学技术大学院大学、图宾根大学
创建时间:
2025-08-28
搜集汇总
数据集介绍

构建方式
FLORES+数据集通过严格的质量控制协议构建,涵盖超过200种语言的英语到多语言翻译数据。其构建过程包括从多领域来源(如WikiNews、WikiJunior和WikiVoyage)筛选英语源句,并由专业译者和审校人员进行多轮翻译与审核,确保文本的多主题覆盖和高质量对齐。
特点
该数据集以其大规模多语言覆盖和严格的质量标准著称,提供超过40,000个翻译方向的并行测试集。然而,研究发现其源句常包含领域特定术语和文化偏向英语世界的表达,导致翻译质量在某些语言中未达宣称的90%标准,且命名实体的过度存在可能影响评估的鲁棒性。
使用方法
FLORES+主要用于评估多语言机器翻译系统的性能,支持BLEU和ChrF++等自动指标计算。用户可通过加载预对齐的并行数据,进行模型训练或测试,但需注意其文化偏向和领域特异性可能限制在真实场景中的泛化能力,建议结合自然语料进行补充评估。
背景与挑战
背景概述
FLORES+数据集由Meta AI等机构于2022年推出,是多语言机器翻译领域的重要评估基准。该数据集涵盖200余种语言,包含超过4万条平行句对,其源文本选自维基新闻、维基导游等多领域语料。通过严格的质量控制流程,包括专业译者的多轮翻译与审核,该数据集旨在推动‘不落下任何语言’的机器翻译研究愿景,成为NLLB等项目核心评估工具,显著提升了低资源语言翻译模型的评测标准。
当前挑战
该数据集面临领域适应性挑战:源文本过度依赖英语文化背景与专业术语(如体育术语‘net point’),导致低资源语言难以实现自然翻译。构建过程中存在命名实体处理缺陷,简单复制实体即可获得0.29 BLEU分数,暴露评估协议脆弱性。此外,语言特异性问题突出,如南阿塞拜疆语的零宽非连接符规范缺失,以及日语敬语体系与书面语语境错配,均影响翻译质量评估的可靠性。
常用场景
解决学术问题
该数据集致力于解决多语言NLP领域的核心挑战:如何构建能够公平评估不同语言类型和资源水平机器翻译系统的基准工具。它通过提供严格质量控制的双语平行语料,缓解了低资源语言评估数据匮乏的问题,并为研究文化特异性短语翻译、形态丰富语言处理以及领域适应性等学术问题提供实证基础。其意义在于推动机器翻译评估方法从英语中心主义向真正多语言范式转变。
衍生相关工作
围绕FLORES+衍生出多项重要研究,包括NLLB团队提出的No Language Left Behind项目,该项目利用该数据集训练覆盖200种语言的大规模翻译模型。后续研究如Abdulmumin等人针对非洲语言的基准修正工作,以及Gordeev团队对厄尔兹亚语等极低资源语言的扩展实验,均建立在此数据集基础上。这些工作共同推动了多语言评估方法论的发展与文化适应性翻译模型的创新。
以上内容由遇见数据集搜集并总结生成



