facebook/flores

Name: facebook/flores
Creator: facebook
Published: 2024-01-18 15:05:58
License: 暂无描述

Hugging Face2024-01-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/facebook/flores

下载链接

链接失效反馈

官方服务：

资源简介：

FLORES-200是一个用于机器翻译的基准数据集，特别是英语与低资源语言之间的翻译。该数据集扩展了FLORES-101的语言覆盖范围，包含了200种语言的平行句子。由于新语言的标准化程度较低，翻译和验证过程更为复杂，涉及从西班牙语、法语、俄语和现代标准阿拉伯语等语言的翻译。数据集包含842篇不同的网络文章，总计3001个句子，分为开发集、开发测试集和测试集（隐藏）。平均每个句子约为21个单词。数据集的结构包括数据实例、数据字段和数据分割，数据实例展示了具体的句子和相关信息。

FLORES-200 is a benchmark dataset for machine translation, particularly focused on translation between English and low-resource languages. This dataset expands the language coverage of FLORES-101, containing parallel sentences across 200 languages. Due to the relatively low standardization of the newly included languages, the translation and validation procedures are more complex, involving translations from languages such as Spanish, French, Russian, and Modern Standard Arabic. The dataset comprises 842 distinct web articles, totaling 3001 sentences, and is divided into a development set, a development test set, and a hidden test set. Each sentence contains an average of approximately 21 words. The structure of the dataset includes data instances, data fields, and data splits, with data instances displaying specific sentences and associated information.

提供机构：

facebook

原始信息汇总

数据集概述

数据集名称

名称: Flores 200
别名: flores200

数据集描述

目的: 用于机器翻译，特别是英语与低资源语言之间的翻译。
特点: 覆盖200种语言，包括多种语言的翻译，如从西班牙语、法语、俄语和现代标准阿拉伯语翻译。
内容: 包含从842个不同的网络文章中提取的3001个句子，分为dev、devtest和test（隐藏）三个部分。

语言信息

语言数量: 200种
语言示例: ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn, bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn

数据集结构

数据实例: 每个实例包含id, sentence, URL, domain, topic, has_image, has_hyperlink等字段。
数据字段:
- id: 数据条目的行号，从1开始。
- sentence: 特定语言的完整句子。
- URL: 提取句子的英文文章的URL。
- domain: 句子的领域。
- topic: 句子的主题。
- has_image: 原始文章是否包含图像。
- has_hyperlink: 句子是否包含超链接。

数据集创建

创建方法: 参考原始文章《No Language Left Behind: Scaling Human-Centered Machine Translation》。

许可证信息

许可证: Creative Commons Attribution-ShareAlike 4.0 International License

引用信息

bibtex @article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }

搜集汇总

数据集介绍

构建方式

Flores-200数据集的构建基于对低资源语言的机器翻译需求，旨在扩展Flores-101的语言覆盖范围。该数据集通过从842篇不同的网络文章中提取句子，总计3001句，涵盖了200种语言。这些句子被分为dev、devtest和test（隐藏）三个部分，平均每句约21个单词。由于新加入的语言标准化程度较低，翻译过程更为复杂，部分语言从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来，并包括四种语言的两种书写系统。

使用方法

使用Flores-200数据集时，用户可以选择访问所有语言的平行句子，或通过指定语言对（如'eng_Latn-ukr_Cyrl'）获取特定语言对的句子。数据集的结构包括句子ID、句子内容、原文URL、领域、主题、是否包含图像和超链接等字段。用户可以根据需要选择不同的数据分割（如dev、devtest）进行模型训练和评估。数据集未进行进一步的预处理或分词，保持了原始数据的完整性。

背景与挑战

背景概述

FLORES-200数据集由Facebook研究团队创建，旨在为机器翻译领域提供一个涵盖广泛低资源语言的基准测试集。该数据集是FLORES-101的扩展版本，显著增加了语言覆盖范围，涵盖了200种语言，包括多种脚本变体。FLORES-200的创建过程中，研究人员面临了语言标准化和专业翻译需求的挑战，因此对翻译流程进行了调整。该数据集的构建基于842篇不同的网络文章，共包含3001个句子，平均每句约21个单词。FLORES-200的发布对大规模多语言机器翻译研究具有重要意义，特别是在WMT2021共享任务的背景下。

当前挑战

FLORES-200数据集的构建面临多重挑战。首先，低资源语言的标准化程度较低，需要专业翻译人员的参与，增加了验证过程的复杂性。其次，数据集包含了从多种语言（如西班牙语、法语、俄语和现代标准阿拉伯语）翻译而来的内容，而非仅从英语翻译，这要求对翻译流程进行调整。此外，数据集中某些语言存在两种脚本变体，进一步增加了数据处理的复杂性。这些挑战不仅体现在数据收集和翻译过程中，也反映在确保数据质量和多样性的技术实现上。

常用场景

经典使用场景

Flores 200数据集在多语言机器翻译领域中具有经典应用场景，尤其适用于评估和训练跨语言翻译模型。该数据集包含了200种语言的平行语料，涵盖了从英语到多种低资源语言的翻译任务。通过使用Flores 200，研究者能够开发和测试能够处理多种语言对的高性能翻译系统，尤其是在低资源语言的翻译任务中表现尤为突出。

解决学术问题

Flores 200数据集解决了多语言机器翻译中的关键学术问题，特别是在低资源语言的翻译任务中。由于许多低资源语言缺乏足够的平行语料，传统的翻译模型在这些语言上表现不佳。Flores 200通过提供丰富的多语言平行语料，帮助研究者开发和评估能够处理低资源语言的翻译模型，从而推动了多语言翻译技术的发展。

实际应用

Flores 200数据集在实际应用中具有广泛的应用场景，特别是在全球化的背景下，跨语言沟通的需求日益增加。该数据集可以用于构建和优化多语言翻译工具，支持从英语到多种低资源语言的实时翻译。此外，Flores 200还可以应用于多语言内容创作、跨文化交流和国际合作等领域，极大地促进了全球范围内的信息共享和沟通。

数据集最近研究