Engligh-Czech Cohesion Corpus

github2019-12-11 更新2024-05-31 收录

下载链接：

https://github.com/techczech/enczcohesioncorpus

下载链接

链接失效反馈

官方服务：

资源简介：

2002年用于比较捷克语和英语衔接研究的平行语料库。由Dominik Lukeš开发，用于研究捷克语和英语文本衔接设备的差异。

A parallel corpus developed in 2002 for comparative studies on cohesion between Czech and English. Created by Dominik Lukeš, it is utilized to investigate the differences in cohesive devices within Czech and English texts.

创建时间：

2012-08-11

原始信息汇总

数据集概述

数据集名称

Engligh-Czech Cohesion Corpus

数据集目的

用于比较研究捷克语和英语的文本凝聚性设备差异。

数据集规模

总词数约100,000个。
捷克语部分：46,689个词。
英语部分：56,905个词。

文本组成

包含24篇文本，分为两大类：小说和非小说。
每类文本在两种语言间各有6篇翻译文本，共计48个样本。
平均样本长度约为2,000个词。

数据集用途

适用于小型探索性研究。

搜集汇总

数据集介绍

构建方式

Engligh-Czech Cohesion Corpus 是一项针对捷克语和英语连贯性比较研究而构建的平行语料库。该语料库由Dominik Lukeš开发，包含2002年的数据。它由24篇文本组成，分为小说和非小说两大类，每类各有6篇英语译为捷克语和6篇捷克语译为英语的文本，总计48个样本，均衡地分布在两种语言中，单个样本平均长度约为2,000个词汇单元。

特点

该数据集的特点在于其专注于比较研究中捷两国语言的文本连贯性差异，提供了一种独特的语言资源。语料库的总词汇量约为100,000个，其中捷克语46,689个词汇，英语56,905个词汇。这种平衡的双语结构，使得研究者能够方便地对照分析两种语言的连贯性特征。此外，语料库经过ParaConc并行语料库工具的标记，便于进行深入的语言学分析。

使用方法

使用该数据集时，研究者可以借助ParaConc工具进行高效的语言学分析。用户需先熟悉该工具的操作，以便能够充分利用语料库中的标记信息。此外，数据集的样本均衡分布在中英两种语言中，研究者可根据具体研究需求，选择相应的语言样本进行比较研究，从而探讨不同语言背景下文本连贯性的异同。

背景与挑战

背景概述

English-Czech Cohesion Corpus乃是一项始于2002年的平行语料库项目，旨在对捷克语与英语之间的连贯性进行对比研究。该数据集由Dominik Lukeš开发，用以深入探讨两种语言在文本连贯性手段上的差异，为相关领域的学术研究提供了重要的基础资源。包含约10万词汇的该语料库，分为小说和非小说两大体裁，各体裁下均有从英语译至捷克语及从捷克语译至英语的各6篇文本，共计48个样本，平均每个样本约2000词汇。该语料库的创建，正值可靠平行语料库资源稀缺之际，对当时及后续的语料库研究产生了积极影响。

当前挑战

尽管随着捷克国家语料库的完善，提供了更高质量的平行语料库，但English-Czech Cohesion Corpus在小型探索性研究中仍具有其独特价值。构建该数据集时面临的挑战主要包括缺乏可靠资源以及需要针对特定研究目的进行定制化编译。此外，如何在保证数据质量的同时，有效标注并适应不同研究需求，也是构建过程中必须克服的关键问题。

常用场景

经典使用场景

在对比语言学领域，English-Czech Cohesion Corpus作为平行语料库，其经典使用场景在于对英语与捷克语之间的文本连贯性差异进行比较研究。通过分析两种语言在连贯性手段上的异同，研究者能够深入理解不同语言结构对文本连贯性的影响。

衍生相关工作

基于English-Czech Cohesion Corpus的研究衍生出了多项相关工作，如对其他语言对的文本连贯性比较研究，以及对现有翻译软件的性能评估和改进。这些工作进一步扩展了该语料库的应用范围，促进了多语言处理技术的发展。

数据集最近研究