JParaCrawl

Name: JParaCrawl
Creator: NTT通信科学实验室
Published: 2020-03-16 04:47:31
License: 暂无描述

arXiv2020-03-16 更新2024-06-21 收录

下载链接：

http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/

下载链接

链接失效反馈

官方服务：

资源简介：

JParaCrawl是由NTT通信科学实验室创建的一个大规模英语-日语平行语料库，旨在解决机器翻译领域中平行语料库的稀缺问题。该数据集通过广泛爬取网络并自动对齐平行句子，积累了超过870万对平行句。JParaCrawl涵盖了广泛的领域，适用于神经机器翻译模型的预训练和特定领域的微调。数据集的创建过程涉及从Common Crawl数据中选择候选域，爬取这些域，并对齐和过滤噪声句对。JParaCrawl的应用领域包括机器翻译，特别是英语到日语的翻译，旨在提高翻译质量和减少训练时间。

JParaCrawl is a large-scale English-Japanese parallel corpus developed by NTT Communication Science Laboratories, which aims to address the scarcity of parallel corpora in the field of machine translation. This corpus has accumulated over 8.7 million parallel sentence pairs through extensive web crawling and automatic alignment of parallel sentences. JParaCrawl covers a wide range of domains, and is suitable for pre-training and domain-specific fine-tuning of neural machine translation models. The construction process of the corpus involves selecting candidate domains from Common Crawl datasets, crawling these domains, as well as aligning and filtering noisy sentence pairs. The application scenarios of JParaCrawl cover machine translation, particularly English-to-Japanese translation, with the goal of improving translation quality and reducing training time.

提供机构：

NTT通信科学实验室

创建时间：

2019-11-25

搜集汇总

数据集介绍

构建方式

JParaCrawl 数据集的构建方式主要依托于网络爬虫技术，通过对包含大量平行文本的网站进行广泛爬取，并利用自动对齐工具对爬取到的数据进行平行句对齐。首先，研究人员从 Common Crawl 数据中筛选出可能包含英日平行句的候选网站，根据网站中英语和日语数据的比例进行排序，并选择排名前 100,000 的网站进行爬取。其次，研究人员使用 HTTrack 工具对候选网站进行重新爬取，以确保数据的完整性和时效性。最后，研究人员利用 Bitextor 工具对爬取到的数据进行平行句对齐，并通过 Bicleaner 工具对对齐后的数据进行清洗，最终得到包含 8.7 百万句对的英日平行语料库。

特点

JParaCrawl 数据集具有以下特点：1）规模庞大：JParaCrawl 数据集是目前公开可用的最大的英日平行语料库，包含超过 8.7 百万句对，为英日机器翻译研究提供了丰富的数据资源。2）领域广泛：JParaCrawl 数据集涵盖了广泛的领域，包括科技论文、电影字幕、维基百科文章等，这使得基于该数据集训练的机器翻译模型能够适应不同的翻译场景。3）预训练模型：研究人员还发布了基于 JParaCrawl 数据集预训练的神经机器翻译模型，这些预训练模型可以作为特定领域翻译模型的起点，有效降低模型训练时间。

使用方法

JParaCrawl 数据集的使用方法如下：1）下载语料库：用户可以从 JParaCrawl 官方网站下载包含 8.7 百万句对的英日平行语料库。2）预训练模型：用户可以从 JParaCrawl 官方网站下载基于该数据集预训练的神经机器翻译模型。3）领域适应：用户可以使用 JParaCrawl 数据集对预训练模型进行领域适应，通过在特定领域的数据集上进行微调，以提高模型在该领域的翻译性能。4）模型训练：用户可以使用 JParaCrawl 数据集从头开始训练神经机器翻译模型，以构建自己的英日翻译系统。

背景与挑战

背景概述

JParaCrawl是一个大规模的网络基础英日平行语料库，由Morishita等人于2020年构建。该数据集的创建旨在解决当前机器翻译中平行语料库有限的瓶颈问题，特别是在英日语言对中。JParaCrawl通过广泛爬取网络并自动对齐平行句子来构建，共收集了超过870万对句子。该数据集的发布不仅为英日机器翻译研究提供了宝贵的资源，而且还展示了如何使用它来训练预训练模型，以便针对特定领域进行微调，从而提高翻译性能并减少训练时间。

当前挑战

JParaCrawl数据集面临的挑战包括：1)爬取过程中如何准确识别和收集英日平行句子；2)在构建过程中如何有效地对齐和过滤噪声句子对；3)如何确保数据集涵盖更广泛的领域，以便模型能够在不同领域的数据上进行微调；4)如何降低模型训练的计算成本，以便在有限的计算资源下进行实验。为了解决这些挑战，研究团队采用了多种技术，包括基于双语词典的文本对齐算法、基于统计的噪声过滤方法以及预训练模型的微调策略。这些技术不仅提高了数据集的质量，而且还为英日机器翻译研究提供了新的思路和方法。

常用场景

经典使用场景

JParaCrawl 数据集作为一个大规模的英文-日文平行语料库，其经典的使用场景在于神经机器翻译（NMT）模型的训练与微调。由于 JParaCrawl 包含了广泛的领域和超过 870 万个句子对，这使得它成为一个理想的预训练语料库，可以用于特定领域的微调，以提高翻译模型的泛化能力和性能。例如，研究人员可以使用 JParaCrawl 对 NMT 模型进行预训练，然后使用特定领域的平行语料库进行微调，从而快速获得高质量的翻译模型。

衍生相关工作

JParaCrawl 数据集的发布和研究成果对机器翻译领域产生了深远的影响。基于 JParaCrawl 的研究成果，研究人员开发了多种预训练模型和微调方法，以提高 NMT 模型的性能和效率。例如，一些研究人员使用 JParaCrawl 对 NMT 模型进行预训练，然后使用特定领域的平行语料库进行微调，从而快速获得高质量的翻译模型。此外，JParaCrawl 还促进了跨语言信息检索和跨文化交际的研究，为构建更加智能和高效的机器翻译系统提供了重要的基础。

数据集最近研究