five

Persian-English Parallel Corpus

收藏
arXiv2019-04-01 更新2024-06-21 收录
下载链接:
https://iasbs.ac.ir/~ansari/nlp/pepc.html
下载链接
链接失效反馈
官方服务:
资源简介:
Persian-English Parallel Corpus是由高级研究基础科学研究所创建的一个包含约20万句子的平行语料库,主要用于波斯语和英语之间的统计机器翻译研究。该数据集通过从维基百科文档中提取平行句子创建,使用Moses翻译工具包和Lucene信息检索系统进行处理。数据集的应用领域主要集中在提高波斯语-英语机器翻译系统的性能,解决该语言对翻译资源稀缺的问题。

Persian-English Parallel Corpus is a parallel corpus containing approximately 200,000 sentences, developed by the Institute for Advanced Studies in Basic Sciences. It is primarily intended for statistical machine translation research between Persian and English. The dataset is constructed by extracting parallel sentences from Wikipedia documents, and processed using the Moses translation toolkit and the Lucene information retrieval system. Its main applications focus on improving the performance of Persian-English machine translation systems and addressing the shortage of translation resources for this language pair.
提供机构:
高级研究基础科学研究所
创建时间:
2017-11-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作