yaya-sy/nllb-filtering
收藏Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yaya-sy/nllb-filtering
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于Meta AI发布的元数据,包含了148个以英语为中心和1465个非英语为中心的语言对的并行文本。数据集总大小约为450GB,数据格式为gzipped的制表符分隔文本文件,每个文件包含并行句子。数据集的创建过程涉及语言识别、表情符号过滤以及高资源语言的语言模型过滤。数据集的访问方式包括通过Hugging Face Python datasets库或克隆git仓库。数据集的结构包括数据实例、数据字段和数据分割,但没有明确的数据分割。
提供机构:
yaya-sy
原始信息汇总
数据集概述
数据集名称
No Language Left Behind (NLLB - 200vo)
数据集来源
基于Meta AI发布的bitext元数据创建,使用stopes挖掘库和LASER3编码器处理。
数据集大小
约450GB。
数据集内容
包含148个以英语为中心和1465个非英语为中心的语言对的bitext。
数据集使用方法
- 通过Hugging Face Python数据集库访问。
- 通过克隆git仓库访问。
数据集结构
数据实例
每个语言对的实例数量可在dataset_infos.json文件中找到。
数据字段
每个实例包含以下字段:
- translation(句子对)
- laser_score
- source_sentence_lid
- target_sentence_lid
- source_sentence_source
- source_sentence_url
- target_sentence_source
- target_sentence_url
数据分割
数据未分割,建议仅用于训练,使用其他数据集如Flores-200进行评估。
数据集创建
数据筛选
基于语言识别、表情过滤和某些高资源语言的语言模型筛选。
源数据
数据来源于多个网络爬虫和特定项目,具体来源包括:
- afriberta
- americasnlp
- bho_resources
- crawl-data/*
- emcorpus
- fbseed20220317
- giossa_mono
- iitguwahati
- indic
使用数据注意事项
- 数据噪声较大,建议仅用于训练。
- 可能与其他测试集存在偶然重叠。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是No Language Left Behind (NLLB)项目的一部分,基于Meta AI的挖掘双文本元数据构建,包含148个英语中心和1465个非英语中心语言对的双文本,总大小约450GB。数据通过stopes挖掘库和LASER3编码器生成,并经过语言识别和过滤处理,主要用于低资源语言的机器翻译训练。数据集以压缩文本文件形式提供,包含句子对、LASER分数和来源信息,但可能包含互联网偏见和个人敏感内容。
以上内容由遇见数据集搜集并总结生成



