yaya-sy/nllb-filtering

Name: yaya-sy/nllb-filtering
Creator: yaya-sy
Published: 2023-08-02 23:20:59
License: 暂无描述

Hugging Face2023-08-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yaya-sy/nllb-filtering

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于Meta AI发布的元数据，包含了148个以英语为中心和1465个非英语为中心的语言对的并行文本。数据集总大小约为450GB，数据格式为gzipped的制表符分隔文本文件，每个文件包含并行句子。数据集的创建过程涉及语言识别、表情符号过滤以及高资源语言的语言模型过滤。数据集的访问方式包括通过Hugging Face Python datasets库或克隆git仓库。数据集的结构包括数据实例、数据字段和数据分割，但没有明确的数据分割。

提供机构：

yaya-sy

原始信息汇总

数据集概述

数据集名称

No Language Left Behind (NLLB - 200vo)

数据集来源

基于Meta AI发布的bitext元数据创建，使用stopes挖掘库和LASER3编码器处理。

数据集大小

约450GB。

数据集内容

包含148个以英语为中心和1465个非英语为中心的语言对的bitext。

数据集使用方法

通过Hugging Face Python数据集库访问。
通过克隆git仓库访问。

数据集结构

数据实例

每个语言对的实例数量可在dataset_infos.json文件中找到。

数据字段

每个实例包含以下字段：

translation（句子对）
laser_score
source_sentence_lid
target_sentence_lid
source_sentence_source
source_sentence_url
target_sentence_source
target_sentence_url

数据分割

数据未分割，建议仅用于训练，使用其他数据集如Flores-200进行评估。

数据集创建

数据筛选

基于语言识别、表情过滤和某些高资源语言的语言模型筛选。

源数据

数据来源于多个网络爬虫和特定项目，具体来源包括：

afriberta
americasnlp
bho_resources
crawl-data/*
emcorpus
fbseed20220317
giossa_mono
iitguwahati
indic

使用数据注意事项

数据噪声较大，建议仅用于训练。
可能与其他测试集存在偶然重叠。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是No Language Left Behind (NLLB)项目的一部分，基于Meta AI的挖掘双文本元数据构建，包含148个英语中心和1465个非英语中心语言对的双文本，总大小约450GB。数据通过stopes挖掘库和LASER3编码器生成，并经过语言识别和过滤处理，主要用于低资源语言的机器翻译训练。数据集以压缩文本文件形式提供，包含句子对、LASER分数和来源信息，但可能包含互联网偏见和个人敏感内容。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集