breakend/nllb-multi-domain

Name: breakend/nllb-multi-domain
Creator: breakend
Published: 2022-08-09 20:44:23
License: 暂无描述

Hugging Face2022-08-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/breakend/nllb-multi-domain

下载链接

链接失效反馈

官方服务：

资源简介：

NLLB Multi Domain数据集是一个多语言、多领域的机器翻译数据集，包含了新闻、非正式口语和健康领域的专业翻译句子。该数据集旨在评估机器翻译的跨领域性能和研究领域适应性。每个领域大约有3000个句子。数据集支持多种语言，包括英语、俄语、Central Aymara、Bhojpuri、Dyula、Friulian和Wolof等。数据集的创建基于FLORES数据集，并扩展了FLORES-101。数据集的结构包括数据实例、数据字段和数据分割等。数据集的创建信息可以参考相关论文，并且数据集遵循Creative Commons Attribution Share Alike 4.0许可证。

The NLLB Multi Domain Dataset is a multilingual, multi-domain machine translation dataset consisting of professionally translated sentences across three domains: news, informal spoken language, and healthcare. It is designed to evaluate the cross-domain performance of machine translation and study domain adaptation. Each domain contains approximately 3,000 sentence pairs. The dataset supports a wide range of languages, including English, Russian, Central Aymara, Bhojpuri, Dyula, Friulian, Wolof, and others. Developed based on the FLORES dataset, it extends the FLORES-101 benchmark. The dataset structure includes data instances, data fields, and data splits, among other components. Relevant papers can be referred to for information on its creation, and the dataset is released under the Creative Commons Attribution Share Alike 4.0 license.

提供机构：

breakend

原始信息汇总

数据集概述

数据集名称

名称: NLLB Multi-Domain

数据集描述

数据集摘要

摘要: NLLB Multi Domain包含专业翻译的句子，涵盖新闻、非脚本非正式演讲和健康领域，旨在评估机器翻译的领域外性能和研究领域适应性。每个领域约有3000个句子。

支持的任务和排行榜

任务: 多语言机器翻译
排行榜: 参考Dynabench leaderboard了解FLORES-101在WMT2021大型多语言机器翻译任务中的模型评估详情。

语言

语言列表:
- Central Aymara (ayr_Latn)
- Bhojpuri (bho_Deva)
- Dyula (dyu_Latn)
- Friulian (fur_Latn)
- Russian (rus_Cyrl)
- Wolof (wol_Latn)

数据集结构

数据实例

格式: 原始数据集中的文本，未经进一步预处理或标记化。

数据字段

id: 数据条目的行号，从1开始。
sentence: 特定语言的完整句子。
domain: 句子的领域。

数据集创建

创建信息: 请参考原始文章No Language Left Behind: Scaling Human-Centered Machine Translation了解数据集创建的详细信息。

附加信息

许可证信息

许可证: 创意共享署名-相同方式共享4.0国际许可。

引用信息

引用: 请在使用此语料库时引用作者。

搜集汇总

数据集介绍

构建方式

在机器翻译领域，跨域性能评估与领域适应研究对模型泛化能力提出更高要求。NLLB Multi-Domain数据集基于FLORES基准扩展构建，涵盖新闻、非脚本化口语及健康三大领域，每个领域包含约3000条专业翻译句子。其构建过程严格遵循人工专家翻译流程，确保语言对之间的语义一致性与领域代表性，数据源自多语言平行语料库，经系统化筛选与对齐，为跨域机器翻译研究提供了标准化评估基础。

特点

该数据集以多语言、多领域为核心特色，支持包括俄语、艾马拉语、博杰普尔语等低资源语言在内的七种语言对，覆盖多样化的语言形态与语法结构。其领域划分清晰，新闻、口语及健康三类文本分别呈现正式、非正式及专业术语丰富的语言风格，有效模拟真实应用场景中的语言变异。数据以原始文本形式提供，未经过额外预处理，保留了语言的自然特征，便于研究者进行细粒度的跨域分析与模型适配。

使用方法

使用该数据集时，研究者可通过指定语言代码对（如“eng_Latn-rus_Cyrl”）加载双语平行数据，每条数据包含句子原文、对应翻译及领域标签。该数据集适用于训练与评估多语言机器翻译模型，尤其侧重于模型在未见领域的泛化能力分析。用户可依据领域标签进行数据子集划分，开展领域适应实验，或结合Dynabench平台参与大规模多语言翻译任务评估，推动低资源语言翻译技术的发展。

背景与挑战

背景概述

NLLB Multi-Domain数据集由Meta AI研究团队于2022年发布，作为“No Language Left Behind”项目的重要组成部分，旨在推动多语言机器翻译领域的前沿探索。该数据集构建于FLORES评估基准之上，涵盖了新闻、非脚本化口语及健康等多个专业领域，每种语言对约包含3000个经过专业翻译的句子，支持包括俄语、艾马拉语、博杰普尔语在内的多种低资源语言。其核心研究问题聚焦于评估机器翻译模型在跨领域场景下的泛化能力，并促进领域自适应方法的发展，为打破语言技术壁垒、实现全球信息平等访问提供了关键的数据支撑。

当前挑战

该数据集致力于解决多语言机器翻译在跨领域适应性方面的核心挑战，特别是针对低资源语言在专业领域（如医疗健康、非正式口语）中翻译质量难以保障的问题。在构建过程中，面临的主要挑战包括：如何确保低资源语言在多个专业领域内获得高质量、文化适配的专业翻译；如何平衡不同语言对的数据规模与领域覆盖度，以避免数据偏差；以及在扩展语言范围时，维持翻译一致性与领域术语准确性的技术难题。这些挑战共同指向了构建均衡、可靠的多领域多语言评估基准的复杂性。

常用场景

经典使用场景

在机器翻译领域，NLLB Multi-Domain数据集作为多语言跨域评估的基准工具，其经典应用场景聚焦于模型在新闻、非正式口语及健康等特定领域的翻译性能测试。该数据集通过提供约3000句专业翻译的平行语料，使研究者能够系统评估翻译系统在不同文本类型中的泛化能力，尤其适用于探索领域自适应策略的有效性。

衍生相关工作

基于该数据集衍生的经典研究包括Meta AI团队提出的No Language Left Behind项目，该项目构建了涵盖200种语言的超大规模翻译模型。后续工作如FLORES-101/200评估基准的扩展，以及WMT大型多语言翻译任务中的系统评测，均以本数据集为基础，推动了低资源语言翻译技术的前沿探索与标准化进程。

数据集最近研究