severo/flores_101
收藏数据集概述
数据集描述
数据集摘要
FLORES 是一个用于英语和低资源语言之间机器翻译的基准数据集。该数据集包含从英语维基百科提取的 3001 个句子,涵盖了各种不同的主题和领域。这些句子通过精心控制的流程由专业翻译人员翻译成 101 种语言。该数据集旨在更好地评估模型在低资源语言上的质量,包括多对多多语言翻译系统的评估,因为所有翻译都是多语言对齐的。
支持的任务和排行榜
多语言机器翻译
请参考 Dynabench 排行榜 获取有关在 FLORES-101 上进行模型评估的更多详细信息。
语言
该数据集包含 101 种语言的平行句子,语言使用 ISO 639-3 代码标识(例如 eng、fra、rus)。
数据集结构
数据实例
以下是俄语 (rus 配置) 的 dev 分割样本。所有配置具有相同的结构,所有句子在配置和分割之间都是对齐的。
python { id: 1, sentence: В понедельник ученые из Медицинской школы Стэнфордского университета объявили об изобретении нового диагностического инструмента, который может сортировать клетки по их типу; это маленький чип, который можно напечатать, используя стандартный струйный принтер примерно за 1 цент США., URL: https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet, domain: wikinews, topic: health, has_image: 0, has_hyperlink: 0 }
数据字段
id: 数据条目的行号,从 1 开始。sentence: 特定语言的完整句子。URL: 从中提取句子的英语文章的 URL。domain: 句子的领域。topic: 句子的主题。has_image: 原始文章是否包含图像。has_hyperlink: 句子是否包含超链接。
数据分割
| 配置 | dev |
devtest |
|---|---|---|
| 所有配置 | 997 | 1012 |
附加信息
数据集创建者
FLORES-101 的原始作者是该数据集的创建者。如需问题或更新,请联系 gabriele.sarti996@gmail.com。
许可信息
该数据集使用 Creative Commons Attribution Share Alike 4.0 许可证。许可证详情请参见 这里。
引用信息
如果您在工作中使用了这些语料库,请引用作者:
bibtex @inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }



