MIZ ¯AN
收藏arXiv2020-01-31 更新2024-06-21 收录
下载链接:
https://github.com/omidkashefi/Mizan
下载链接
链接失效反馈官方服务:
资源简介:
MIZ ¯AN是由伊朗科学与技术大学计算机工程学院创建的大型波斯语-英语平行语料库,包含1,011,085个句子对,总计约2500万词。该数据集主要从Project Gutenberg的版权免费文学作品中收集,并通过人工转录确保数据质量。创建过程包括文本数字化、校正和句子对齐,旨在解决波斯语-英语机器翻译中的资源不足问题,为统计机器翻译提供高质量的训练数据。
MIZ¯AN is a large Persian-English parallel corpus created by the School of Computer Engineering, Iran University of Science and Technology. It contains 1,011,085 sentence pairs, with a total of approximately 25 million words. This corpus is primarily collected from copyright-free literary works on Project Gutenberg, and its data quality is guaranteed through manual transcription. The construction process includes text digitization, correction and sentence alignment, aiming to solve the problem of insufficient resources for Persian-English machine translation and provide high-quality training data for statistical machine translation.
提供机构:
伊朗科学与技术大学计算机工程学院
创建时间:
2018-01-07
搜集汇总
数据集介绍

背景与挑战
背景概述
MIZAN是一个大型的波斯语-英语平行语料库,包含约100万句对,数据主要来源于文学名著。该数据集旨在支持波斯语和英语之间的机器翻译或语言研究任务,并遵循CC-BY-4.0许可证。
以上内容由遇见数据集搜集并总结生成



