BOUQuET

Name: BOUQuET
Creator: FAIR at Meta, University College London, University of the Basque Country (UPV/EHU)
Published: 2025-02-07 02:56:37
License: 暂无描述

arXiv2025-02-07 更新2025-02-25 收录

下载链接：

https://huggingface.co/spaces/facebook/bouquet

下载链接

链接失效反馈

官方服务：

资源简介：

BOUQuET是一个多中心、多语域的数据集和基准，由FAIR at Meta等机构创建。该数据集专门设计为非英语中心，包含23种语言，旨在服务于多语言翻译的准确性。数据集内容手工制作，涵盖多种语言特点，并以段落形式组织，超越句子级别。BOUQuET涵盖了广泛的领域，适用于多种语言处理任务，特别适合开放倡议，可扩展至任何书面语言的多向平行语料库。

BOUQuET is a multi-center, multi-register dataset and benchmark developed by organizations including FAIR at Meta and other research institutions. This dataset is specifically designed with a non-English-centric orientation, encompassing 23 languages, with the goal of advancing the accuracy of multilingual translation. The content of the dataset is manually curated, covers a wide range of linguistic characteristics, and is structured at the paragraph level, exceeding sentence-level boundaries. It spans diverse domains and is applicable to multiple natural language processing tasks. It is particularly well-suited for open collaborative initiatives, and can be extended as a multi-directional parallel corpus for any written language.

提供机构：

FAIR at Meta, University College London, University of the Basque Country (UPV/EHU)

创建时间：

2025-02-07

搜集汇总

数据集介绍

构建方式

BOUQuET数据集由非英语语言的专业人士手工制作，涵盖了法语、德语、印地语、印度尼西亚语、普通话、俄语和西班牙语。每种语言都提供了相同数量的句子，并附有英语翻译。数据集的设计旨在避免污染，并通过包括多种语言和语域来强制表示多语言语言特征。数据集不仅限于句子级别，而是组织成各种长度的段落，以展示语言使用的多样性和连续性。

特点

BOUQuET数据集的特点是其多中心性和多语域性，旨在代表世界上使用最广泛的语言，并且具有作为枢轴语言进行翻译的潜力。数据集覆盖了8个不同的领域，包括叙述、对话、社交媒体帖子、社交媒体评论、指南、网站内容、评论文章和其他。此外，数据集还涵盖了多种语域，从正式到非正式，以展示语言使用的多样性和复杂性。最后，数据集具有动态可扩展性，允许社区参与并不断扩展其语言覆盖范围。

使用方法

BOUQuET数据集的使用方法包括将其作为机器翻译（MT）模型的评估基准，以评估模型在不同语言和语域中的性能。数据集还可以用于训练和开发MT模型，特别是那些旨在支持多语言和跨文化交流的模型。此外，数据集还可以用于语言教学和研究，以帮助学习者更好地理解不同语言和语域中的语言使用。

背景与挑战

背景概述

BOUQuET数据集是由Omnilingual MT团队创建的一个多中心、多语种和领域的机器翻译质量评估数据集和基准。该数据集的设计理念是为了解决现有机器翻译数据集的局限性，例如英语中心主义、领域和语域覆盖范围狭窄、质量受自动化构建和挖掘的影响、语言覆盖范围有限以及静态性质等。BOUQuET数据集在非英语语言中手工制作，每种源语言在世界上使用人数最多的23种语言中都有所代表，因此有可能作为支点语言，从而实现更准确的翻译。该数据集特别设计为避免污染并具有多中心性，以便强制代表多语言语言特征。此外，该数据集超越了句子层面，因为它按各种长度的段落组织。与相关的机器翻译（MT）数据集相比，我们表明BOUQuET在领域方面具有更广泛的代表性，同时简化了非专家的翻译任务。因此，BOUQuET特别适合于我们正在启动的开放倡议和翻译参与号召，以将其扩展到任何书面语言的多元平行语料库。

当前挑战

BOUQuET数据集面临的挑战包括：1) 解决领域问题：BOUQuET旨在解决现有机器翻译数据集的局限性，例如英语中心主义、领域和语域覆盖范围狭窄、质量受自动化构建和挖掘的影响、语言覆盖范围有限以及静态性质等。2) 构建过程中的挑战：BOUQuET数据集的构建需要手工制作，并且需要多语言社区的合作参与。这要求制定详细的贡献指南，并建立注释工具，以自由地收集任何语言的翻译。此外，BOUQuET数据集的动态性质要求其能够不断进化，以适应不断变化的多语言应用需求。

常用场景

经典使用场景

BOUQuET数据集在多语言翻译质量评估方面具有广泛应用，其独特的非英语中心设计使其成为评估多语言翻译模型性能的理想选择。数据集的多语言特性使其能够更好地反映真实世界中的语言使用情况，从而提高翻译模型的准确性和可靠性。此外，BOUQuET数据集的多领域和多语体特性使其能够为不同领域和语体的翻译任务提供更全面的语言特征，从而为翻译模型提供更全面的评估。BOUQuET数据集的开放性也为社区参与提供了便利，使其能够不断扩展和更新，以适应不断变化的语言使用情况。

衍生相关工作

BOUQuET数据集的开放性和多语言特性使其成为许多相关研究的基础。例如，BOUQuET数据集可以用于开发新的多语言翻译评估指标，以提高评估的准确性和可靠性。此外，BOUQuET数据集的多领域和多语体特性使其可以用于开发新的多语言翻译模型，以提高翻译的准确性和可靠性。BOUQuET数据集的开放性也为社区参与提供了便利，使其能够不断扩展和更新，以适应不断变化的语言使用情况。

数据集最近研究