five

Amharic-English Parallel Corpus

收藏
arXiv2022-05-03 更新2024-06-21 收录
下载链接:
http://dx.doi.org/10.24352/ub.ovgu-2018-145
下载链接
链接失效反馈
官方服务:
资源简介:
本研究介绍了Amharic-English Parallel Corpus的构建过程,该数据集由奥托·冯·格里克马格德堡大学的研究团队开发,旨在支持Amharic这种低资源语言的机器翻译研究。数据集包含145,364条平行句对,来源于编辑过的文档如报纸、杂志和教科书,确保了数据的质量。创建过程中,研究团队对文本进行了预处理、分段和校准,以适应机器翻译模型的训练需求。该数据集的应用领域主要集中在Amharic-English机器翻译,旨在解决低资源语言在机器翻译领域的资源匮乏问题。

This study introduces the construction process of the Amharic-English Parallel Corpus, which was developed by the research team from Otto von Guericke University Magdeburg to support machine translation research on Amharic, a low-resource language. The dataset contains 145,364 parallel sentence pairs, sourced from curated documents including newspapers, magazines and textbooks, which guarantees the data quality. During its development, the research team preprocessed, segmented and calibrated the texts to meet the training requirements of machine translation models. This dataset is primarily applied to Amharic-English machine translation, aiming to address the resource scarcity issue of low-resource languages in the machine translation field.
提供机构:
奥托·冯·格里克马格德堡大学
创建时间:
2021-04-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作