slone/nllb-200-10M-sample

Name: slone/nllb-200-10M-sample
Creator: slone
Published: 2023-11-20 13:15:10
License: 暂无描述

Hugging Face2023-11-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/slone/nllb-200-10M-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从NLLB-200挖掘数据集中抽取的近1000万句对样本，使用了facebook/blaser-2.0-qe模型进行评分。样本并非随机抽取，而是从每个翻译方向中选取前n个句对，目的是对包含较少代表语言的翻译方向进行上采样。数据集包含187种语言和文字组合，大多数语言组合的句对数量在36K到200K之间。超过60%的句对BLASER-QE评分高于3.5。该数据集可用于微调大规模多语言翻译模型，并提供了使用建议。数据集发布在ODC-BY许可下，并引用了相关的研究论文。

提供机构：

slone

原始信息汇总

数据集概述

数据集名称

nllb-200-10M-sample

数据集描述

这是一个从NLLB-200挖掘的数据集中抽取的近1000万句子对样本，使用facebook/blaser-2.0-qe模型进行评分，该模型在《SeamlessM4T》论文中描述。样本并非随机抽取，而是从每个翻译方向中选取了前n个句子对，目的是对包含较少语言的方向进行上采样。尽管如此，187种语言和脚本组合的句子对数量并不均匀，大多数语言和脚本组合的句子对数量在36,000到200,000之间。超过60%的句子对的BLASER-QE评分高于3.5。

数据集用途

该数据集可用于微调大规模多语言翻译模型。建议的使用场景包括：

根据blaser_sim值过滤数据集（推荐的阈值为3.0或3.5）；
在数据加载过程中随机交换源/目标角色；
使用这些数据增强数据集，同时为新的翻译方向微调NLLB类模型，以减轻对其他翻译方向的遗忘。

数据集结构

特征

laser_score: 类型为float64
lang1: 类型为string
text1: 类型为string
lang2: 类型为string
text2: 类型为string
blaser_sim: 类型为float64

分割

train: 包含9,983,398个样本，大小为2,279,333,006字节

数据集大小

下载大小: 1,825,697,094字节
数据集大小: 2,279,333,006字节

配置

default配置包含train分割的数据文件路径为data/train-*

许可证

ODC-BY

任务类别

翻译

大小类别

1M<n<10M

支持的语言

数据集支持多种语言，包括但不限于：

ak (aka_Latn Akan)
am (amh_Ethi Amharic)
ar (arb_Arab Modern Standard Arabic)
...
zu (zul_Latn Zulu)

引用

NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv https://arxiv.org/abs/2207.04672, 2022.
Seamless Communication et al, SeamlessM4T — Massively Multilingual & Multimodal Machine Translation, Arxiv https://arxiv.org/abs/2308.11596, 2023.

5,000+

优质数据集

54 个

任务类型

进入经典数据集