SEACrowd/flores200
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/flores200
下载链接
链接失效反馈官方服务:
资源简介:
FLORES-200数据集的创建将现有的FLORES-101语言覆盖范围扩大了一倍。由于新语言的性质,这些语言的标准化程度较低,需要更专业的翻译,因此验证过程变得更加复杂,这需要对翻译流程进行修改。FLORES-200包含了一些并非从英语翻译而来的语言,具体来说,一些语言是从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的。此外,FLORES-200还包括了四种语言的两种书写形式。该数据集由842篇不同的网页文章翻译而成,总计3001个句子。这些句子分为三个部分:开发集、开发测试集和测试集(隐藏)。平均而言,每个句子大约有21个单词。
FLORES-200数据集的创建将现有的FLORES-101语言覆盖范围扩大了一倍。由于新语言的性质,这些语言的标准化程度较低,需要更专业的翻译,因此验证过程变得更加复杂,这需要对翻译流程进行修改。FLORES-200包含了一些并非从英语翻译而来的语言,具体来说,一些语言是从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的。此外,FLORES-200还包括了四种语言的两种书写形式。该数据集由842篇不同的网页文章翻译而成,总计3001个句子。这些句子分为三个部分:开发集、开发测试集和测试集(隐藏)。平均而言,每个句子大约有21个单词。
提供机构:
SEACrowd



