severo/flores_101

Name: severo/flores_101
Creator: severo
Published: 2022-10-27 08:37:36
License: 暂无描述

Hugging Face2022-10-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/severo/flores_101

下载链接

链接失效反馈

官方服务：

资源简介：

FLORES是一个用于机器翻译的基准数据集，特别关注英语与低资源语言之间的翻译。该数据集包含101种语言的平行句子，这些句子是从英文维基百科中提取并由专业翻译人员翻译的。数据集的设计旨在更好地评估模型在低资源语言上的表现，并支持多对多的多语言翻译系统评估。数据集的结构包括数据实例、数据字段、数据分割等信息，所有句子在多语言配置和分割中都是对齐的。

提供机构：

severo

原始信息汇总

数据集概述

数据集描述

数据集摘要

FLORES 是一个用于英语和低资源语言之间机器翻译的基准数据集。该数据集包含从英语维基百科提取的 3001 个句子，涵盖了各种不同的主题和领域。这些句子通过精心控制的流程由专业翻译人员翻译成 101 种语言。该数据集旨在更好地评估模型在低资源语言上的质量，包括多对多多语言翻译系统的评估，因为所有翻译都是多语言对齐的。

支持的任务和排行榜

多语言机器翻译

请参考 Dynabench 排行榜获取有关在 FLORES-101 上进行模型评估的更多详细信息。

语言

该数据集包含 101 种语言的平行句子，语言使用 ISO 639-3 代码标识（例如 eng、fra、rus）。

数据集结构

数据实例

以下是俄语 (rus 配置) 的 dev 分割样本。所有配置具有相同的结构，所有句子在配置和分割之间都是对齐的。

python { id: 1, sentence: В понедельник ученые из Медицинской школы Стэнфордского университета объявили об изобретении нового диагностического инструмента, который может сортировать клетки по их типу; это маленький чип, который можно напечатать, используя стандартный струйный принтер примерно за 1 цент США., URL: https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet, domain: wikinews, topic: health, has_image: 0, has_hyperlink: 0 }

数据字段

id: 数据条目的行号，从 1 开始。
sentence: 特定语言的完整句子。
URL: 从中提取句子的英语文章的 URL。
domain: 句子的领域。
topic: 句子的主题。
has_image: 原始文章是否包含图像。
has_hyperlink: 句子是否包含超链接。

数据分割

配置	`dev`	`devtest`
所有配置	997	1012

附加信息

数据集创建者

FLORES-101 的原始作者是该数据集的创建者。如需问题或更新，请联系 gabriele.sarti996@gmail.com。

许可信息

该数据集使用 Creative Commons Attribution Share Alike 4.0 许可证。许可证详情请参见这里。

引用信息

如果您在工作中使用了这些语料库，请引用作者：

bibtex @inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集