CzEng 2.0 Parallel Corpus

Name: CzEng 2.0 Parallel Corpus
Creator: OpenDataLab
Published: 2026-05-24 10:30:26
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/CzEng_2_dot_0_Parallel_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

捷克-英语平行语料库 CzEng 2.0 由每种语言的超过 20 亿个单词（2 个“gigawords”）组成。语料库包含文档级信息，并使用多种技术进行过滤以降低噪声量。

Czech-English parallel corpus CzEng 2.0 consists of over 2 billion words (2 "gigawords") per language. The corpus contains document-level information and applies multiple filtering techniques to reduce the level of noise.

提供机构：

OpenDataLab

创建时间：

2022-08-16

搜集汇总

数据集介绍

背景与挑战

背景概述

CzEng 2.0 Parallel Corpus 是一个捷克-英语平行语料库，包含每种语言超过20亿单词的文档级文本，并经过过滤以降低噪声。该数据集由查理大学于2020年发布。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集