nllb-mos
收藏Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/madoss/nllb-mos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两种语言之间的句子对,主要字段包括英语(eng_Latn)和莫桑比克语(mos_Latn)的句子文本,以及相关的语言识别分数(laser_score)、语言标识概率(source_glotlid_prob, target_glotlid_prob)和机器翻译质量评估分数(comet_qe_en_mos)。此外,数据集还提供了句子来源的URL和原始句子信息。数据集规模较大,包含2,197,850个训练样本,总大小约为1.16GB。适用于机器翻译、语言识别和翻译质量评估等自然语言处理任务。
创建时间:
2026-04-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: nllb-mos
- 托管平台: Hugging Face Datasets
- 数据集地址: https://huggingface.co/datasets/madoss/nllb-mos
数据集结构与内容
- 数据格式: 包含多个字段的结构化数据
- 数据条数: 2,197,850 条
- 数据总量: 1,166,315,240 字节
- 下载大小: 492,218,546 字节
- 数据分割: 仅包含训练集(train)
数据特征(字段说明)
- eng_Latn: 英语(拉丁字母)文本
- mos_Latn: 莫西语(拉丁字母)文本
- laser_score: 浮点数,激光对齐分数
- source_sentence_lid: 浮点数,源语句语言识别分数
- target_sentence_lid: 浮点数,目标语句语言识别分数
- source_sentence_source: 字符串,源语句来源
- source_sentence_url: 字符串,源语句URL
- target_sentence_source: 字符串,目标语句来源
- target_sentence_url: 字符串,目标语句URL
- source_glotlid_lang: 字符串,源语句GlotLID语言标识
- source_glotlid_prob: 浮点数,源语句GlotLID概率
- target_glotlid_lang: 字符串,目标语句GlotLID语言标识
- target_glotlid_prob: 浮点数,目标语句GlotLID概率
- comet_qe_en_mos: 浮点数,COMET-QE英莫翻译质量评估分数
配置信息
- 默认配置名称: default
- 数据文件路径: data/train-*
搜集汇总
数据集介绍

构建方式
在跨语言自然语言处理领域,构建高质量平行语料库是推动机器翻译模型发展的关键。nllb-mos数据集通过精心设计的流程,从多样化的网络来源采集英语与莫西语之间的句子对。其构建过程融合了自动化数据挖掘与人工校验,利用LASER嵌入模型进行句子对齐,并引入语言识别技术确保语料纯净度。每条数据均附带详尽的元信息,如来源网址与置信度评分,为后续研究提供了可追溯的语料基础。
特点
该数据集在跨语言资源中展现出鲜明的技术特征,其核心在于提供了大规模、高精度的英语-莫西语平行句对。每条记录不仅包含原始文本,还集成了LASER对齐分数、语言识别概率以及COMET-QE自动评估指标,形成多维度的质量标注体系。数据字段设计兼顾了语言学属性与工程需求,例如通过glotlid字段细化语言变体信息,为低资源语言研究提供了结构化的数据支撑。这种丰富的元数据层使得数据集既能服务于翻译模型训练,也可用于质量估计、语种检测等衍生任务。
使用方法
对于研究人员而言,该数据集可直接应用于训练或评估神经机器翻译模型,尤其适合探索英语与低资源语言莫西语之间的跨语言转换。使用者可通过HuggingFace数据集库加载数据,利用预定义的训练分割进行模型优化。数据中的质量评分字段允许进行过滤或加权训练,而来源信息字段则支持数据溯源与分析。在具体实践中,可结合COMET-QE分数筛选高质量子集,或利用语言识别概率研究语料混合效应,为多语言NLP实验提供灵活的基础设施。
背景与挑战
背景概述
NLLB-MOS数据集诞生于2022年,由Meta AI研究团队主导构建,旨在应对低资源语言机器翻译领域中的核心难题。该数据集作为No Language Left Behind(NLLB)项目的重要组成部分,专注于为多种低资源语言提供大规模、高质量的平行语料,特别是莫西语(Moore,代码mos)与英语之间的翻译对。其核心研究问题在于如何突破数据稀缺的瓶颈,为资源匮乏的语言建立可靠的翻译模型基础,从而推动机器翻译技术在全球语言覆盖上的公平性与包容性,对多语言自然语言处理研究产生了深远影响。
当前挑战
该数据集致力于解决低资源语言机器翻译任务所固有的挑战,即如何在训练数据极其有限的情况下,构建出能够生成准确、流畅翻译的模型。具体而言,挑战体现在高质量双语数据的稀缺性、语言对的极度不平衡以及自动评估指标在低资源场景下的可靠性不足。在构建过程中,研究团队面临了数据采集与清洗的艰巨任务,需要从分散且非结构化的网络源中挖掘有效语料,并克服莫西语等语言标注资源匮乏、方言变体复杂以及自动化对齐工具精度有限等一系列技术障碍。
常用场景
经典使用场景
在机器翻译领域,nllb-mos数据集为多语言翻译模型的质量评估提供了关键支持。该数据集包含大量英语与莫桑比克葡萄牙语之间的平行句对,并附有激光评分和COMET-QE等自动评估指标,使其成为训练和验证翻译质量估计模型的理想资源。研究人员通常利用这些句对和评分数据,构建能够预测翻译输出质量的机器学习模型,从而减少对人工评估的依赖,提升翻译系统开发的效率与可扩展性。
衍生相关工作
围绕nllb-mos数据集,已衍生出多项经典研究工作,主要集中在低资源语言翻译质量估计模型的创新上。例如,研究者利用其激光评分和COMET-QE特征,开发了融合多信号的质量预测架构,这些模型在WMT等国际评测中取得了显著进展。同时,该数据集也支撑了对翻译错误类型分析与语种识别交叉任务的研究,推动了多语言自然语言处理技术向更细粒度、更鲁棒的方向发展。
数据集最近研究
最新研究方向
在低资源语言处理领域,nllb-mos数据集正推动机器翻译质量评估的前沿探索。该数据集整合了英语与莫西语的双语语料,并融合了LASER嵌入分数、语言识别概率及COMET-QE自动评估指标,为跨语言表示学习提供了丰富标注。当前研究热点集中于利用其多维特征优化低资源语言的翻译模型,特别是在非洲语言技术应用中,通过联合建模源语言与目标语言的语言标识信息,提升翻译系统的鲁棒性与可解释性。这一进展不仅助力Meta的NLLB项目实现更公平的语言覆盖,也为全球语言多样性保护提供了技术支撑,在消弭数字语言鸿沟方面具有深远意义。
以上内容由遇见数据集搜集并总结生成



