five

yaya-sy/nllb-filtering

收藏
Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yaya-sy/nllb-filtering
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于Meta AI发布的元数据,包含了148个以英语为中心和1465个非英语为中心的语言对的并行文本。数据集总大小约为450GB,数据格式为gzipped的制表符分隔文本文件,每个文件包含并行句子。数据集的创建过程涉及语言识别、表情符号过滤以及高资源语言的语言模型过滤。数据集的访问方式包括通过Hugging Face Python datasets库或克隆git仓库。数据集的结构包括数据实例、数据字段和数据分割,但没有明确的数据分割。
提供机构:
yaya-sy
原始信息汇总

数据集概述

数据集名称

No Language Left Behind (NLLB - 200vo)

数据集来源

基于Meta AI发布的bitext元数据创建,使用stopes挖掘库和LASER3编码器处理。

数据集大小

约450GB。

数据集内容

包含148个以英语为中心和1465个非英语为中心的语言对的bitext。

数据集使用方法

  • 通过Hugging Face Python数据集库访问。
  • 通过克隆git仓库访问。

数据集结构

数据实例

每个语言对的实例数量可在dataset_infos.json文件中找到。

数据字段

每个实例包含以下字段:

  • translation(句子对)
  • laser_score
  • source_sentence_lid
  • target_sentence_lid
  • source_sentence_source
  • source_sentence_url
  • target_sentence_source
  • target_sentence_url

数据分割

数据未分割,建议仅用于训练,使用其他数据集如Flores-200进行评估。

数据集创建

数据筛选

基于语言识别、表情过滤和某些高资源语言的语言模型筛选。

源数据

数据来源于多个网络爬虫和特定项目,具体来源包括:

  • afriberta
  • americasnlp
  • bho_resources
  • crawl-data/*
  • emcorpus
  • fbseed20220317
  • giossa_mono
  • iitguwahati
  • indic

使用数据注意事项

  • 数据噪声较大,建议仅用于训练。
  • 可能与其他测试集存在偶然重叠。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是No Language Left Behind (NLLB)项目的一部分,基于Meta AI的挖掘双文本元数据构建,包含148个英语中心和1465个非英语中心语言对的双文本,总大小约450GB。数据通过stopes挖掘库和LASER3编码器生成,并经过语言识别和过滤处理,主要用于低资源语言的机器翻译训练。数据集以压缩文本文件形式提供,包含句子对、LASER分数和来源信息,但可能包含互联网偏见和个人敏感内容。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作