CzEng 2.0 Parallel Corpus
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CzEng_2_dot_0_Parallel_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
捷克-英语平行语料库 CzEng 2.0 由每种语言的超过 20 亿个单词(2 个“gigawords”)组成。语料库包含文档级信息,并使用多种技术进行过滤以降低噪声量。
Czech-English parallel corpus CzEng 2.0 consists of over 2 billion words (2 "gigawords") per language. The corpus contains document-level information and applies multiple filtering techniques to reduce the level of noise.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
CzEng 2.0 Parallel Corpus 是一个捷克-英语平行语料库,包含每种语言超过20亿单词的文档级文本,并经过过滤以降低噪声。该数据集由查理大学于2020年发布。
以上内容由遇见数据集搜集并总结生成



