five

CzEng 2.0

收藏
arXiv2020-07-07 更新2024-06-21 收录
下载链接:
https://ufal.mff.cuni.cz/czeng/czeng20
下载链接
链接失效反馈
官方服务:
资源简介:
CzEng 2.0是由查尔斯大学数学与物理学院形式与应用语言学研究所创建的捷克语-英语平行语料库,包含超过20亿字。该数据集通过多种技术过滤,降低了噪音,并提供了文档级信息。除了包含先前版本的数据外,还增加了新的真实和高品质合成平行数据。CzEng 2.0主要用于研究和教育目的,旨在支持神经机器翻译(NMT)的发展,特别是在提高NMT系统质量和数据量方面。

CzEng 2.0 is a Czech-English parallel corpus created by the Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, containing over 2 billion words. This dataset is filtered via multiple techniques to reduce noise and provides document-level information. In addition to incorporating data from its prior version, it also adds new authentic and high-quality synthetic parallel data. CzEng 2.0 is primarily intended for research and educational purposes, aiming to support the development of neural machine translation (NMT), particularly in improving the quality and expanding the data scale of NMT systems.
提供机构:
查尔斯大学数学与物理学院形式与应用语言学研究所
创建时间:
2020-07-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作