allenai/nllb

Name: allenai/nllb
Creator: allenai
Published: 2022-09-29 18:53:15
License: 暂无描述

Hugging Face2022-09-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/nllb

下载链接

链接失效反馈

官方服务：

资源简介：

No Language Left Behind (NLLB - 200vo)数据集基于Meta AI发布的元数据创建，包含148种以英语为中心和1465种非以英语为中心的语言对的并行文本。数据集总大小约为450GB，主要通过Hugging Face Python库或克隆Git仓库来访问。数据集的每个语言对包含压缩的制表符分隔的文本文件，每行包含并行句子。数据集未进行分割，建议仅用于训练，评估可使用其他数据集如Flores-200。数据集的创建过程包括语言识别、表情符号过滤和语言模型过滤。数据来源包括多个公开的单语数据集和网络爬虫数据。

No Language Left Behind (NLLB - 200vo) dataset is created based on the metadata released by Meta AI, containing parallel text for 148 English-centric and 1465 non-English-centric language pairs. The total size of the dataset is approximately 450 GB, and it can be mainly accessed via the Hugging Face Python library or by cloning the Git repository. Each language pair in the dataset includes compressed tab-separated text files, with each line holding parallel sentences. The dataset is not pre-split, and it is recommended for training purposes only; other datasets such as Flores-200 can be used for evaluation. The dataset creation process covers language identification, emoji filtering and language model filtering. The data sources include multiple public monolingual datasets and web-crawled data.

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

No Language Left Behind (NLLB - 200vo)

数据集总结

创建依据：基于Meta AI发布的metadata。
内容：包含148个英语为中心和1465个非英语为中心的语言对的双语数据。
大小：约450GB。
数据来源：使用stopes挖掘库和LASER3编码器。
前版本：可在CCMatrix找到。

支持的任务和语言

任务：未明确列出。
语言：语言对列表可在此查看。

数据集结构

文件格式：gzipped tab delimited文本文件。
数据实例：每个语言对的数据实例数量可在dataset_infos.json中查看。
数据字段：每个实例包含translation, laser_score, source_sentence_lid, target_sentence_lid等字段。

数据集创建

筛选标准：基于语言识别、表情过滤及高资源语言的语言模型筛选。
源数据：来自多个源，包括commoncrawl等。

使用数据注意事项

推荐用途：仅用于训练，建议使用其他数据集如Flores-200进行评估。
数据分割：未进行分割，存在与其他测试集的偶然重叠。

数据访问方式

通过Hugging Face Python数据集库： python from datasets import load_dataset dataset = load_dataset("allenai/nllb", "ace_Latn-ban_Latn")
通过克隆git仓库： bash git lfs install git clone https://huggingface.co/datasets/allenai/nllb

搜集汇总

数据集介绍

构建方式

在机器翻译领域，构建高质量平行语料库是推动多语言模型发展的关键。NLLB-200数据集通过Meta AI发布的元数据，利用stopes挖掘库与LASER3编码器技术，从大规模网络爬取数据中自动提取双语对照文本。该过程涵盖148种以英语为中心及1465种非英语中心语言对，总计约450GB数据，并经过语言识别、表情符号过滤及部分高资源语言的语言模型筛选，确保语料质量与多样性。

使用方法

研究者可通过Hugging Face的datasets库便捷访问该数据集，指定特定语言对代码即可加载相应平行语料。例如，使用load_dataset("allenai/nllb", "ace_Latn-ban_Latn")可获取亚齐语与巴厘语对照数据。数据集未预设划分，建议将其用于训练阶段，并搭配Flores-200等专用评估集进行模型验证。数据文件以压缩文本格式存储，包含句子来源与URL信息，支持对语料溯源与质量分析。

背景与挑战

背景概述

在机器翻译领域，多语言平行语料库的构建一直是推动跨语言交流技术发展的核心驱动力。由Meta AI于2022年主导创建的No Language Left Behind (NLLB)数据集，旨在应对全球语言资源不均衡的现状，其核心研究问题聚焦于为低资源语言提供高质量的翻译支持。该数据集涵盖了超过200种语言对的平行文本，规模约达450GB，通过先进的LASER3编码器与stopes挖掘库从多源网络文本中提取，显著提升了机器翻译模型在非英语中心语言对上的性能，为自然语言处理领域的包容性发展奠定了数据基础。

当前挑战

NLLB数据集面临的挑战主要体现在两方面：在领域问题层面，机器翻译需克服低资源语言数据稀疏性、语言形态多样性以及文化语境差异带来的语义对齐困难，这些因素制约了翻译模型的泛化能力与准确性；在构建过程中，数据收集面临网络文本噪声干扰、语言识别错误以及隐私信息过滤等难题，同时需确保跨语言句对的质量与对齐可靠性，这对数据清洗与标注策略提出了极高要求。

常用场景

经典使用场景

在跨语言自然语言处理领域，NLLB-200数据集为机器翻译模型的训练提供了关键支持。该数据集覆盖了200种语言，包含英语中心及非英语中心的平行语料，通过LASER3编码器挖掘并排序，确保了高质量的双语句对。研究者通常利用这些数据训练多语言神经机器翻译模型，特别是在低资源语言翻译任务中，数据集的高覆盖性和大规模特性使得模型能够学习到跨语言的通用表示，从而提升翻译的准确性和流畅性。

解决学术问题

NLLB-200数据集有效解决了多语言机器翻译中低资源语言数据稀缺的学术难题。传统研究往往集中于高资源语言，而该数据集通过挖掘和整合来自Common Crawl等来源的语料，为1485种非英语中心语言对提供了训练资源，打破了数据壁垒。这不仅促进了语言平等性的研究，还推动了跨语言表示学习的发展，使得模型能够在资源有限的情况下实现更公平的翻译性能，对计算语言学的理论探索具有深远意义。

实际应用

在实际应用中，NLLB-200数据集支持了全球信息服务的本地化与普及。例如，在社交媒体内容翻译、多语言新闻摘要以及教育资源的跨语言传播中，基于该数据集训练的模型能够处理多样化的语言需求，特别是在非洲、南亚等地区的低资源语言场景。此外，它还被用于开发实时翻译工具，帮助消除语言障碍，促进跨文化交流，为国际组织、企业和非营利机构提供了高效的语言解决方案。

数据集最近研究