five

severo/flores_101

收藏
Hugging Face2022-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/severo/flores_101
下载链接
链接失效反馈
官方服务:
资源简介:
FLORES是一个用于机器翻译的基准数据集,特别关注英语与低资源语言之间的翻译。该数据集包含101种语言的平行句子,这些句子是从英文维基百科中提取并由专业翻译人员翻译的。数据集的设计旨在更好地评估模型在低资源语言上的表现,并支持多对多的多语言翻译系统评估。数据集的结构包括数据实例、数据字段、数据分割等信息,所有句子在多语言配置和分割中都是对齐的。

FLORES是一个用于机器翻译的基准数据集,特别关注英语与低资源语言之间的翻译。该数据集包含101种语言的平行句子,这些句子是从英文维基百科中提取并由专业翻译人员翻译的。数据集的设计旨在更好地评估模型在低资源语言上的表现,并支持多对多的多语言翻译系统评估。数据集的结构包括数据实例、数据字段、数据分割等信息,所有句子在多语言配置和分割中都是对齐的。
提供机构:
severo
原始信息汇总

数据集概述

数据集描述

数据集摘要

FLORES 是一个用于英语和低资源语言之间机器翻译的基准数据集。该数据集包含从英语维基百科提取的 3001 个句子,涵盖了各种不同的主题和领域。这些句子通过精心控制的流程由专业翻译人员翻译成 101 种语言。该数据集旨在更好地评估模型在低资源语言上的质量,包括多对多多语言翻译系统的评估,因为所有翻译都是多语言对齐的。

支持的任务和排行榜

多语言机器翻译

请参考 Dynabench 排行榜 获取有关在 FLORES-101 上进行模型评估的更多详细信息。

语言

该数据集包含 101 种语言的平行句子,语言使用 ISO 639-3 代码标识(例如 engfrarus)。

数据集结构

数据实例

以下是俄语 (rus 配置) 的 dev 分割样本。所有配置具有相同的结构,所有句子在配置和分割之间都是对齐的。

python { id: 1, sentence: В понедельник ученые из Медицинской школы Стэнфордского университета объявили об изобретении нового диагностического инструмента, который может сортировать клетки по их типу; это маленький чип, который можно напечатать, используя стандартный струйный принтер примерно за 1 цент США., URL: https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet, domain: wikinews, topic: health, has_image: 0, has_hyperlink: 0 }

数据字段

  • id: 数据条目的行号,从 1 开始。
  • sentence: 特定语言的完整句子。
  • URL: 从中提取句子的英语文章的 URL。
  • domain: 句子的领域。
  • topic: 句子的主题。
  • has_image: 原始文章是否包含图像。
  • has_hyperlink: 句子是否包含超链接。

数据分割

配置 dev devtest
所有配置 997 1012

附加信息

数据集创建者

FLORES-101 的原始作者是该数据集的创建者。如需问题或更新,请联系 gabriele.sarti996@gmail.com

许可信息

该数据集使用 Creative Commons Attribution Share Alike 4.0 许可证。许可证详情请参见 这里

引用信息

如果您在工作中使用了这些语料库,请引用作者:

bibtex @inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作