five

EmakhuwaPortuguese parallel corpus

收藏
arXiv2021-04-13 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2104.05753v1
下载链接
链接失效反馈
官方服务:
资源简介:
EmakhuwaPortuguese parallel corpus是由卢里奥大学和剑桥大学合作创建的一个包含47,415对葡萄牙语和Emakhuwa语句子的数据集。该数据集主要来源于耶和华见证人网站、非洲故事书网站以及莫桑比克法律文件等,总计包含699,976个Emakhuwa单词和877,595个葡萄牙语单词。数据集的创建过程涉及文本的数字化和光学字符识别(OCR)处理。该数据集主要用于机器翻译研究,特别是在低资源语言对如葡萄牙语和Emakhuwa语之间的翻译模型开发。

The Emakhuwa-Portuguese parallel corpus is a dataset containing 47,415 sentence pairs of Portuguese and Emakhuwa, co-created by Lúrio University and the University of Cambridge. It is primarily sourced from platforms including the Jehovah's Witnesses website, African Storybook website, and Mozambican legal documents, with a total of 699,976 Emakhuwa words and 877,595 Portuguese words. The construction process of this dataset involves text digitization and Optical Character Recognition (OCR) processing. This dataset is mainly used for machine translation research, particularly for the development of translation models for low-resource language pairs such as Portuguese and Emakhuwa.
提供机构:
卢里奥大学计算机工程系
创建时间:
2021-04-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作