PangeaBench-flores
收藏数据集卡片:Flores 200
数据集描述
数据集概述
FLORES-200 是一个用于机器翻译的基准数据集,涵盖了从英语到低资源语言的翻译。该数据集扩展了 FLORES-101 的语言覆盖范围,包含 200 种语言。由于新加入的语言标准化程度较低,需要更专业的翻译,因此翻译流程进行了调整。FLORES-200 包含从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的语言,并且为四种语言提供了两种脚本选项。数据集包含 842 篇不同网络文章的翻译,总计 3001 个句子,分为 dev、devtest 和 test(隐藏)三个部分。平均句子长度约为 21 个单词。
支持的任务和排行榜
- 多语言机器翻译:参考 Dynabench 排行榜 获取更多关于 FLORES-101 模型评估的详细信息。
语言
数据集包含 200 种语言的平行句子,使用 ISO 639-3 代码标识语言,并附加脚本代码(例如 eng_Latn, ukr_Cyrl)。
数据集结构
数据实例
示例数据实例包括 id、sentence、URL、domain、topic、has_image 和 has_hyperlink 字段。
数据字段
id:数据条目的行号,从 1 开始。sentence:特定语言的完整句子。URL:句子来源的英文文章的 URL。domain:句子的域。topic:句子的主题。has_image:原始文章是否包含图像。has_hyperlink:句子是否包含超链接。
数据分割
| 配置 | dev |
devtest |
|---|---|---|
| 所有配置 | 997 | 1012 |
附加信息
数据集策展人
详情请参阅论文。
许可信息
使用 Creative Commons Attribution Share Alike 4.0 许可证。
引用信息
使用数据集时,请引用以下文献: bibtex @article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }
bibtex @inproceedings{, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, year={2021} }
bibtex @inproceedings{, title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English}, author={Guzm{a}n, Francisco and Chen, Peng-Jen and Ott, Myle and Pino, Juan and Lample, Guillaume and Koehn, Philipp and Chaudhary, Vishrav and Ranzato, MarcAurelio}, journal={arXiv preprint arXiv:1902.01382}, year={2019} }




