Parallel Corpus of Translationese

Name: Parallel Corpus of Translationese
Creator: 海法大学计算机科学系，萨尔兰大学计算语言学系
Published: 2016-03-06 21:41:11
License: 暂无描述

arXiv2016-03-06 更新2024-06-21 收录

下载链接：

http://cl.haifa.ac.il/projects/translationese/index.shtml

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘Parallel Corpus of Translationese’，由海法大学计算机科学系和萨尔兰大学计算语言学系共同创建。数据集包含英法和英德双语平行语料，涵盖议会进程、文学作品、TED演讲转录及政治评论等多种文本类型，总计约347,000条。数据集经过严格预处理，确保每条数据的一对一句子对齐，适用于翻译学研究，特别是翻译方向识别。该数据集旨在解决翻译文本的自动识别问题，支持机器翻译和人类翻译研究，对翻译学领域具有重要意义。

This dataset, named *Parallel Corpus of Translationese*, was jointly developed by the Department of Computer Science at the University of Haifa and the Department of Computational Linguistics at Saarland University. It comprises bilingual parallel corpora for English-French and English-German language pairs, covering a wide range of text types including parliamentary proceedings, literary works, TED talk transcripts, and political commentaries, with a total of approximately 347,000 sentence pairs. The dataset has undergone rigorous preprocessing to guarantee one-to-one sentence alignment for every entry, rendering it suitable for translation studies, especially research on translation direction identification. This dataset is designed to tackle the problem of automatic identification of translated texts, supporting research on both machine translation and human translation, and carries substantial significance for the field of translation studies.

提供机构：

海法大学计算机科学系，萨尔兰大学计算语言学系

创建时间：

2015-09-12

搜集汇总

数据集介绍

构建方式

Parallel Corpus of Translationese 数据集是一个双语平行语料库，包含英语与法语、英语与德语之间的翻译对，其中翻译方向被准确标注。该数据集由五个子语料库组成：欧洲议会（Europarl）、加拿大议会（Hansard）、文学作品（Literature）、TED演讲（TED）和政治新闻评论（Politics）。语料库的构建过程中，研究人员从各种来源收集了这些文本，并进行了严格的预处理和清洗，以确保数据的质量和可靠性。此外，为了提高数据集的多样性，研究人员从不同领域和体裁中收集了文本，包括议会记录、文学作品、TED演讲和政治评论。

特点

Parallel Corpus of Translationese 数据集具有以下特点：多样性、平行性、多语言性和统一性。首先，数据集包含了不同领域和体裁的文本，如议会记录、文学作品、TED演讲和政治评论，这使得数据集具有很高的多样性。其次，数据集包含了源语言和目标语言之间的翻译对，这有助于研究人员研究翻译语言的特性。此外，数据集包含了多种语言对之间的翻译，这有助于研究人员研究特定语言对之间的翻译特性。最后，数据集的所有文本都经过了统一的预处理和清洗，这保证了数据的一致性和可靠性。

使用方法

Parallel Corpus of Translationese 数据集可用于多种研究任务，如翻译语言的识别、翻译质量评估、机器翻译等。在使用数据集时，研究人员可以采用监督学习或无监督学习的方法，利用各种特征（如功能词、词性三联体、位置词频等）来训练分类器或聚类器。此外，研究人员还可以使用数据集来研究翻译语言的特性，如翻译普遍性和干扰现象等。在使用数据集时，研究人员需要注意数据集的多样性，以便更好地理解翻译语言的特性。此外，研究人员还需要注意数据集的标注信息，以便准确地识别翻译语言的方向。

背景与挑战

背景概述

翻译语体（Translationese）是一种特殊的语言变体，它是指在翻译过程中形成的，与原始语言有所不同的文本语言。翻译语体的研究对于理解翻译过程、提高翻译质量以及开发机器翻译系统具有重要意义。本研究介绍的数据集——Parallel Corpus of Translationese，是由Ella Rabinovich, Shuly Wintner和Ofek Luis Lewinsohn于2016年创建的，旨在为翻译语体研究提供高质量的平行语料库。该数据集包含了英语-法语和英语-德语的双语平行语料，涵盖了议会程序、文学作品、TED演讲和时政评论等多种文本类型。这些语料库的创建对于翻译语体研究和机器翻译技术的发展具有重要意义。

当前挑战

Parallel Corpus of Translationese数据集在构建过程中面临的主要挑战包括：1）确保翻译方向的准确标注，以区分源语言和目标语言；2）保证语料库的多样性，涵盖不同类型、风格和作者的文本；3）保证语料库的平行性，即每个文本都有对应的源语言和目标语言版本；4）保证语料库的多语言性，以便于研究特定语言对和翻译语体的一般特征；5）保证语料库的统一性，即所有文本都经过相同的预处理和标注过程；6）保证语料库的可用性，以便于其他研究人员进行研究和验证。此外，翻译语体识别也是一个重要的挑战，特别是在缺乏标注数据的情况下，如何有效地识别翻译文本和源语言文本，是翻译语体研究中的一个重要问题。

常用场景

经典使用场景

Parallel Corpus of Translationese数据集是一个多领域、并行、统一的双语英语-法语和英语-德语语料库，它准确地标注了翻译方向。该语料库包含议会程序、文学作品、TED演讲的转录稿和政治评论等多种文本类型，为翻译学研究和翻译方向的自动识别提供了宝贵的资源。该数据集在翻译特征识别、翻译方向自动识别和翻译质量评估等方面具有广泛的应用。

实际应用

Parallel Corpus of Translationese数据集在实际应用中具有广泛的应用场景。首先，该数据集可以用于翻译质量评估，通过分析翻译文本的特征，评估翻译质量的高低。其次，该数据集可以用于翻译方向自动识别，为机器翻译系统提供重要的参考。此外，该数据集还可以用于翻译教学和研究，帮助学生和研究人员更好地理解和掌握翻译特征。

衍生相关工作

Parallel Corpus of Translationese数据集的提出和发展，衍生了一系列相关的研究工作。首先，该数据集被广泛应用于翻译特征识别的研究中，研究人员通过分析数据集中的翻译文本特征，探索翻译文本的普遍规律和特征。其次，该数据集被用于翻译方向的自动识别研究，开发出多种翻译方向自动识别方法。此外，该数据集还被用于翻译质量评估、机器翻译系统开发等领域，推动了翻译研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集