slone/nllb-200-10M-sample
收藏Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slone/nllb-200-10M-sample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从NLLB-200挖掘数据集中抽取的近1000万句对样本,使用了facebook/blaser-2.0-qe模型进行评分。样本并非随机抽取,而是从每个翻译方向中选取前n个句对,目的是对包含较少代表语言的翻译方向进行上采样。数据集包含187种语言和文字组合,大多数语言组合的句对数量在36K到200K之间。超过60%的句对BLASER-QE评分高于3.5。该数据集可用于微调大规模多语言翻译模型,并提供了使用建议。数据集发布在ODC-BY许可下,并引用了相关的研究论文。
提供机构:
slone
原始信息汇总
数据集概述
数据集名称
nllb-200-10M-sample
数据集描述
这是一个从NLLB-200挖掘的数据集中抽取的近1000万句子对样本,使用facebook/blaser-2.0-qe模型进行评分,该模型在《SeamlessM4T》论文中描述。样本并非随机抽取,而是从每个翻译方向中选取了前n个句子对,目的是对包含较少语言的方向进行上采样。尽管如此,187种语言和脚本组合的句子对数量并不均匀,大多数语言和脚本组合的句子对数量在36,000到200,000之间。超过60%的句子对的BLASER-QE评分高于3.5。
数据集用途
该数据集可用于微调大规模多语言翻译模型。建议的使用场景包括:
- 根据
blaser_sim值过滤数据集(推荐的阈值为3.0或3.5); - 在数据加载过程中随机交换源/目标角色;
- 使用这些数据增强数据集,同时为新的翻译方向微调NLLB类模型,以减轻对其他翻译方向的遗忘。
数据集结构
特征
laser_score: 类型为float64lang1: 类型为stringtext1: 类型为stringlang2: 类型为stringtext2: 类型为stringblaser_sim: 类型为float64
分割
train: 包含9,983,398个样本,大小为2,279,333,006字节
数据集大小
- 下载大小: 1,825,697,094字节
- 数据集大小: 2,279,333,006字节
配置
default配置包含train分割的数据文件路径为data/train-*
许可证
ODC-BY
任务类别
翻译
大小类别
1M<n<10M
支持的语言
数据集支持多种语言,包括但不限于:
ak(aka_Latn Akan)am(amh_Ethi Amharic)ar(arb_Arab Modern Standard Arabic)- ...
zu(zul_Latn Zulu)
引用
- NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv https://arxiv.org/abs/2207.04672, 2022.
- Seamless Communication et al, SeamlessM4T — Massively Multilingual & Multimodal Machine Translation, Arxiv https://arxiv.org/abs/2308.11596, 2023.



