five

slone/nllb-200-10M-sample

收藏
Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slone/nllb-200-10M-sample
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从NLLB-200挖掘数据集中抽取的近1000万句对样本,使用了facebook/blaser-2.0-qe模型进行评分。样本并非随机抽取,而是从每个翻译方向中选取前n个句对,目的是对包含较少代表语言的翻译方向进行上采样。数据集包含187种语言和文字组合,大多数语言组合的句对数量在36K到200K之间。超过60%的句对BLASER-QE评分高于3.5。该数据集可用于微调大规模多语言翻译模型,并提供了使用建议。数据集发布在ODC-BY许可下,并引用了相关的研究论文。
提供机构:
slone
原始信息汇总

数据集概述

数据集名称

nllb-200-10M-sample

数据集描述

这是一个从NLLB-200挖掘的数据集中抽取的近1000万句子对样本,使用facebook/blaser-2.0-qe模型进行评分,该模型在《SeamlessM4T》论文中描述。样本并非随机抽取,而是从每个翻译方向中选取了前n个句子对,目的是对包含较少语言的方向进行上采样。尽管如此,187种语言和脚本组合的句子对数量并不均匀,大多数语言和脚本组合的句子对数量在36,000到200,000之间。超过60%的句子对的BLASER-QE评分高于3.5。

数据集用途

该数据集可用于微调大规模多语言翻译模型。建议的使用场景包括:

  • 根据blaser_sim值过滤数据集(推荐的阈值为3.0或3.5);
  • 在数据加载过程中随机交换源/目标角色;
  • 使用这些数据增强数据集,同时为新的翻译方向微调NLLB类模型,以减轻对其他翻译方向的遗忘。

数据集结构

特征

  • laser_score: 类型为float64
  • lang1: 类型为string
  • text1: 类型为string
  • lang2: 类型为string
  • text2: 类型为string
  • blaser_sim: 类型为float64

分割

  • train: 包含9,983,398个样本,大小为2,279,333,006字节

数据集大小

  • 下载大小: 1,825,697,094字节
  • 数据集大小: 2,279,333,006字节

配置

  • default配置包含train分割的数据文件路径为data/train-*

许可证

ODC-BY

任务类别

翻译

大小类别

1M<n<10M

支持的语言

数据集支持多种语言,包括但不限于:

  • ak (aka_Latn Akan)
  • am (amh_Ethi Amharic)
  • ar (arb_Arab Modern Standard Arabic)
  • ...
  • zu (zul_Latn Zulu)

引用

  • NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv https://arxiv.org/abs/2207.04672, 2022.
  • Seamless Communication et al, SeamlessM4T — Massively Multilingual & Multimodal Machine Translation, Arxiv https://arxiv.org/abs/2308.11596, 2023.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作