ParaCrawl/para_crawl

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ParaCrawl/para_crawl

下载链接

链接失效反馈

资源简介：

ParaCrawl是一个大规模的平行语料库，主要用于机器翻译任务。该数据集包含多种欧洲官方语言的翻译对，如英语与保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语等。数据集的大小在10M到100M之间，数据格式为翻译对，每个翻译对包含两种语言的文本。数据集的创建目的是为了支持机器翻译系统的开发，并且数据集的许可证为CC0-1.0，意味着用户可以自由使用、修改和分发数据。

提供机构：

ParaCrawl

原始信息汇总

数据集概述

基本信息

数据集名称: ParaCrawl
语言: 包含多种欧洲语言，具体包括：bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
许可证: cc0-1.0
多语言性: 翻译
数据集大小: 10M<n<100M
源数据: 原始数据
任务类别: 翻译

数据集配置

配置名称: enbg

特征:
- translation: 包含语言对 en-bg
分割:
- train:
  - 字节数: 356532771
  - 样本数: 1039885
下载大小: 103743335
数据集大小: 356532771

配置名称: encs

特征:
- translation: 包含语言对 en-cs
分割:
- train:
  - 字节数: 638068353
  - 样本数: 2981949
下载大小: 196410022
数据集大小: 638068353

配置名称: enda

特征:
- translation: 包含语言对 en-da
分割:
- train:
  - 字节数: 598624306
  - 样本数: 2414895
下载大小: 182804827
数据集大小: 598624306

配置名称: ende

特征:
- translation: 包含语言对 en-de
分割:
- train:
  - 字节数: 3997191986
  - 样本数: 16264448
下载大小: 1307754745
数据集大小: 3997191986

配置名称: enel

特征:
- translation: 包含语言对 en-el
分割:
- train:
  - 字节数: 688069020
  - 样本数: 1985233
下载大小: 193553374
数据集大小: 688069020

配置名称: enes

特征:
- translation: 包含语言对 en-es
分割:
- train:
  - 字节数: 6209466040
  - 样本数: 21987267
下载大小: 1953839527
数据集大小: 6209466040

配置名称: enet

特征:
- translation: 包含语言对 en-et
分割:
- train:
  - 字节数: 201408919
  - 样本数: 853422
下载大小: 70158650
数据集大小: 201408919

配置名称: enfi

特征:
- translation: 包含语言对 en-fi
分割:
- train:
  - 字节数: 524624150
  - 样本数: 2156069
下载大小: 159209242
数据集大小: 524624150

配置名称: enfr

特征:
- translation: 包含语言对 en-fr
分割:
- train:
  - 字节数: 9015440258
  - 样本数: 31374161
下载大小: 2827554088
数据集大小: 9015440258

配置名称: enga

特征:
- translation: 包含语言对 en-ga
分割:
- train:
  - 字节数: 104523278
  - 样本数: 357399
下载大小: 29394367
数据集大小: 104523278

配置名称: enhr

特征:
- translation: 包含语言对 en-hr
分割:
- train:
  - 字节数: 247646552
  - 样本数: 1002053
下载大小: 84904103
数据集大小: 247646552

配置名称: enhu

特征:
- translation: 包含语言对 en-hu
分割:
- train:
  - 字节数: 403168065
  - 样本数: 1901342
下载大小: 119784765
数据集大小: 403168065

配置名称: enit

特征:
- translation: 包含语言对 en-it
分割:
- train:
  - 字节数: 3340542050
  - 样本数: 12162239
下载大小: 1066720197
数据集大小: 3340542050

配置名称: enlt

特征:
- translation: 包含语言对 en-lt
分割:
- train:
  - 字节数: 197053694
  - 样本数: 844643
下载大小: 66358392
数据集大小: 197053694

配置名称: enlv

特征:
- translation: 包含语言对 en-lv
分割:
- train:
  - 字节数: 142409870
  - 样本数: 553060
下载大小: 47368967
数据集大小: 142409870

配置名称: enmt

特征:
- translation: 包含语言对 en-mt
分割:
- train:
  - 字节数: 52786023
  - 样本数: 195502
下载大小: 19028352
数据集大小: 52786023

配置名称: ennl

特征:
- translation: 包含语言对 en-nl
分割:
- train:
  - 字节数: 1384042007
  - 样本数: 5659268
下载大小: 420090979
数据集大小: 1384042007

配置名称: enpl

特征:
- translation: 包含语言对 en-pl
分割:
- train:
  - 字节数: 854786500
  - 样本数: 3503276
下载大小: 270427885
数据集大小: 854786500

配置名称: enpt

特征:
- translation: 包含语言对 en-pt
分割:
- train:
  - 字节数: 2031891156
  - 样本数: 8141940
下载大小: 638184462
数据集大小: 2031891156

配置名称: enro

特征:
- translation: 包含语言对 en-ro
分割:
- train:
  - 字节数: 518359240
  - 样本数: 1952043
下载大小: 160684751
数据集大小: 518359240

配置名称: ensk

特征:
- translation: 包含语言对 en-sk
分割:
- train:
  - 字节数: 337704729
  - 样本数: 1591831
下载大小: 101307152
数据集大小: 337704729

配置名称: ensl

特征:
- translation: 包含语言对 en-sl
分割:
- train:
  - 字节数: 182399034
  - 样本数: 660161
下载大小: 65037465
数据集大小: 182399034

配置名称: ensv

特征:
- translation: 包含语言对 en-sv
分割:
- train:
  - 字节数: 875576366
  - 样本数: 3476729
下载大小: 275528370
数据集大小: 875576366

搜集汇总

数据集介绍

构建方式

ParaCrawl数据集的构建方式是通过从互联网上爬取大量平行语料，涵盖多种欧洲官方语言。该数据集由多个子集组成，每个子集对应一对特定语言的翻译对。这些平行语料经过严格的清洗和预处理，以确保其质量和适用性。数据集的每个子集都包含训练集，其中包含成对的翻译实例，以及相应的语言代码。例如，enbg子集包含英语和保加利亚语的翻译对。

特点

ParaCrawl数据集的特点在于其规模庞大，包含数十亿个翻译实例，覆盖多种欧洲官方语言。这使得该数据集非常适合用于机器翻译和自然语言处理等领域的模型训练和评估。此外，该数据集还提供了详细的元数据信息，包括每个子集的大小、下载大小、磁盘使用量等，方便用户选择合适的子集进行使用。

使用方法

使用ParaCrawl数据集的方法相对简单。首先，用户需要选择合适的子集，例如enbg、encs等，然后下载相应的数据文件。下载完成后，用户可以使用Python等编程语言进行数据处理和模型训练。例如，用户可以使用TensorFlow或PyTorch等深度学习框架，将数据集加载到模型中，进行翻译任务的训练和评估。此外，ParaCrawl数据集还提供了详细的文档和示例代码，帮助用户更好地理解和使用该数据集。

背景与挑战

背景概述

ParaCrawl 数据集是一个大规模的平行语料库，旨在为官方欧洲语言提供网络规模的并行语料。该数据集的创建始于 2020 年，由一群研究人员和工程师组成，包括 Marta Baño、Pinzhen Chen、Barry Haddow 等。该数据集的核心研究问题是提高机器翻译系统的质量和效率，通过收集和整理网络上的平行文本，为研究人员和开发者提供一个丰富的资源。ParaCrawl 数据集对机器翻译和相关领域的研究产生了重要影响，促进了机器翻译技术的发展和进步。

当前挑战

ParaCrawl 数据集面临的挑战包括：1) 数据集的规模巨大，需要高效的存储和检索方法；2) 平行文本的质量参差不齐，需要进行筛选和清洗；3) 数据集的多样性有限，可能无法涵盖所有语言和领域。此外，构建数据集的过程中也面临一些挑战，例如：1) 如何高效地爬取网络上的平行文本；2) 如何处理不同语言之间的差异；3) 如何确保数据集的质量和可靠性。

常用场景

经典使用场景

在自然语言处理领域，机器翻译是一项基础而重要的任务，旨在实现跨语言的信息交流。ParaCrawl数据集作为大规模平行语料库，为机器翻译研究提供了丰富的资源。它包含了从网络上收集的多种欧洲官方语言的并行文本，如英语与保加利亚语、捷克语、丹麦语等。这些文本对翻译模型的训练至关重要，能够帮助模型学习不同语言之间的对应关系，提高翻译的准确性和流畅性。

衍生相关工作

ParaCrawl数据集的发布，衍生了一系列相关的研究工作。研究人员利用该数据集进行了句子对齐、翻译模型训练、跨语言信息检索等方面的研究，取得了丰硕的成果。例如，一些研究利用ParaCrawl数据集训练了基于深度学习的翻译模型，实现了高准确率的翻译效果；另一些研究则基于该数据集构建了跨语言搜索引擎，为用户提供便捷的多语言信息检索服务。这些研究成果不仅推动了机器翻译技术的发展，也为跨语言信息处理领域带来了新的突破。

数据集最近研究