Persian-English Parallel Corpus

Name: Persian-English Parallel Corpus
Creator: 高级研究基础科学研究所
Published: 2019-04-01 02:01:37
License: 暂无描述

arXiv2019-04-01 更新2024-06-21 收录

下载链接：

https://iasbs.ac.ir/~ansari/nlp/pepc.html

下载链接

链接失效反馈

官方服务：

资源简介：

Persian-English Parallel Corpus是由高级研究基础科学研究所创建的一个包含约20万句子的平行语料库，主要用于波斯语和英语之间的统计机器翻译研究。该数据集通过从维基百科文档中提取平行句子创建，使用Moses翻译工具包和Lucene信息检索系统进行处理。数据集的应用领域主要集中在提高波斯语-英语机器翻译系统的性能，解决该语言对翻译资源稀缺的问题。

Persian-English Parallel Corpus is a parallel corpus containing approximately 200,000 sentences, developed by the Institute for Advanced Studies in Basic Sciences. It is primarily intended for statistical machine translation research between Persian and English. The dataset is constructed by extracting parallel sentences from Wikipedia documents, and processed using the Moses translation toolkit and the Lucene information retrieval system. Its main applications focus on improving the performance of Persian-English machine translation systems and addressing the shortage of translation resources for this language pair.

提供机构：

高级研究基础科学研究所

创建时间：

2017-11-02

5,000+

优质数据集

54 个

任务类型

进入经典数据集