CzEng 2.0
收藏arXiv2020-07-07 更新2024-06-21 收录
下载链接:
https://ufal.mff.cuni.cz/czeng/czeng20
下载链接
链接失效反馈官方服务:
资源简介:
CzEng 2.0是由查尔斯大学数学与物理学院形式与应用语言学研究所创建的捷克语-英语平行语料库,包含超过20亿字。该数据集通过多种技术过滤,降低了噪音,并提供了文档级信息。除了包含先前版本的数据外,还增加了新的真实和高品质合成平行数据。CzEng 2.0主要用于研究和教育目的,旨在支持神经机器翻译(NMT)的发展,特别是在提高NMT系统质量和数据量方面。
CzEng 2.0 is a Czech-English parallel corpus created by the Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, containing over 2 billion words. This dataset is filtered via multiple techniques to reduce noise and provides document-level information. In addition to incorporating data from its prior version, it also adds new authentic and high-quality synthetic parallel data. CzEng 2.0 is primarily intended for research and educational purposes, aiming to support the development of neural machine translation (NMT), particularly in improving the quality and expanding the data scale of NMT systems.
提供机构:
查尔斯大学数学与物理学院形式与应用语言学研究所
创建时间:
2020-07-07



