ParaCrawl/para_crawl
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ParaCrawl/para_crawl
下载链接
链接失效反馈资源简介:
ParaCrawl是一个大规模的平行语料库,主要用于机器翻译任务。该数据集包含多种欧洲官方语言的翻译对,如英语与保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语等。数据集的大小在10M到100M之间,数据格式为翻译对,每个翻译对包含两种语言的文本。数据集的创建目的是为了支持机器翻译系统的开发,并且数据集的许可证为CC0-1.0,意味着用户可以自由使用、修改和分发数据。
ParaCrawl是一个大规模的平行语料库,主要用于机器翻译任务。该数据集包含多种欧洲官方语言的翻译对,如英语与保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语等。数据集的大小在10M到100M之间,数据格式为翻译对,每个翻译对包含两种语言的文本。数据集的创建目的是为了支持机器翻译系统的开发,并且数据集的许可证为CC0-1.0,意味着用户可以自由使用、修改和分发数据。
提供机构:
ParaCrawl
原始信息汇总
数据集概述
基本信息
- 数据集名称: ParaCrawl
- 语言: 包含多种欧洲语言,具体包括:bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
- 许可证: cc0-1.0
- 多语言性: 翻译
- 数据集大小: 10M<n<100M
- 源数据: 原始数据
- 任务类别: 翻译
数据集配置
配置名称: enbg
- 特征:
translation: 包含语言对en-bg
- 分割:
train:- 字节数: 356532771
- 样本数: 1039885
- 下载大小: 103743335
- 数据集大小: 356532771
配置名称: encs
- 特征:
translation: 包含语言对en-cs
- 分割:
train:- 字节数: 638068353
- 样本数: 2981949
- 下载大小: 196410022
- 数据集大小: 638068353
配置名称: enda
- 特征:
translation: 包含语言对en-da
- 分割:
train:- 字节数: 598624306
- 样本数: 2414895
- 下载大小: 182804827
- 数据集大小: 598624306
配置名称: ende
- 特征:
translation: 包含语言对en-de
- 分割:
train:- 字节数: 3997191986
- 样本数: 16264448
- 下载大小: 1307754745
- 数据集大小: 3997191986
配置名称: enel
- 特征:
translation: 包含语言对en-el
- 分割:
train:- 字节数: 688069020
- 样本数: 1985233
- 下载大小: 193553374
- 数据集大小: 688069020
配置名称: enes
- 特征:
translation: 包含语言对en-es
- 分割:
train:- 字节数: 6209466040
- 样本数: 21987267
- 下载大小: 1953839527
- 数据集大小: 6209466040
配置名称: enet
- 特征:
translation: 包含语言对en-et
- 分割:
train:- 字节数: 201408919
- 样本数: 853422
- 下载大小: 70158650
- 数据集大小: 201408919
配置名称: enfi
- 特征:
translation: 包含语言对en-fi
- 分割:
train:- 字节数: 524624150
- 样本数: 2156069
- 下载大小: 159209242
- 数据集大小: 524624150
配置名称: enfr
- 特征:
translation: 包含语言对en-fr
- 分割:
train:- 字节数: 9015440258
- 样本数: 31374161
- 下载大小: 2827554088
- 数据集大小: 9015440258
配置名称: enga
- 特征:
translation: 包含语言对en-ga
- 分割:
train:- 字节数: 104523278
- 样本数: 357399
- 下载大小: 29394367
- 数据集大小: 104523278
配置名称: enhr
- 特征:
translation: 包含语言对en-hr
- 分割:
train:- 字节数: 247646552
- 样本数: 1002053
- 下载大小: 84904103
- 数据集大小: 247646552
配置名称: enhu
- 特征:
translation: 包含语言对en-hu
- 分割:
train:- 字节数: 403168065
- 样本数: 1901342
- 下载大小: 119784765
- 数据集大小: 403168065
配置名称: enit
- 特征:
translation: 包含语言对en-it
- 分割:
train:- 字节数: 3340542050
- 样本数: 12162239
- 下载大小: 1066720197
- 数据集大小: 3340542050
配置名称: enlt
- 特征:
translation: 包含语言对en-lt
- 分割:
train:- 字节数: 197053694
- 样本数: 844643
- 下载大小: 66358392
- 数据集大小: 197053694
配置名称: enlv
- 特征:
translation: 包含语言对en-lv
- 分割:
train:- 字节数: 142409870
- 样本数: 553060
- 下载大小: 47368967
- 数据集大小: 142409870
配置名称: enmt
- 特征:
translation: 包含语言对en-mt
- 分割:
train:- 字节数: 52786023
- 样本数: 195502
- 下载大小: 19028352
- 数据集大小: 52786023
配置名称: ennl
- 特征:
translation: 包含语言对en-nl
- 分割:
train:- 字节数: 1384042007
- 样本数: 5659268
- 下载大小: 420090979
- 数据集大小: 1384042007
配置名称: enpl
- 特征:
translation: 包含语言对en-pl
- 分割:
train:- 字节数: 854786500
- 样本数: 3503276
- 下载大小: 270427885
- 数据集大小: 854786500
配置名称: enpt
- 特征:
translation: 包含语言对en-pt
- 分割:
train:- 字节数: 2031891156
- 样本数: 8141940
- 下载大小: 638184462
- 数据集大小: 2031891156
配置名称: enro
- 特征:
translation: 包含语言对en-ro
- 分割:
train:- 字节数: 518359240
- 样本数: 1952043
- 下载大小: 160684751
- 数据集大小: 518359240
配置名称: ensk
- 特征:
translation: 包含语言对en-sk
- 分割:
train:- 字节数: 337704729
- 样本数: 1591831
- 下载大小: 101307152
- 数据集大小: 337704729
配置名称: ensl
- 特征:
translation: 包含语言对en-sl
- 分割:
train:- 字节数: 182399034
- 样本数: 660161
- 下载大小: 65037465
- 数据集大小: 182399034
配置名称: ensv
- 特征:
translation: 包含语言对en-sv
- 分割:
train:- 字节数: 875576366
- 样本数: 3476729
- 下载大小: 275528370
- 数据集大小: 875576366
搜集汇总
数据集介绍

构建方式
ParaCrawl数据集的构建方式是通过从互联网上爬取大量平行语料,涵盖多种欧洲官方语言。该数据集由多个子集组成,每个子集对应一对特定语言的翻译对。这些平行语料经过严格的清洗和预处理,以确保其质量和适用性。数据集的每个子集都包含训练集,其中包含成对的翻译实例,以及相应的语言代码。例如,enbg子集包含英语和保加利亚语的翻译对。
特点
ParaCrawl数据集的特点在于其规模庞大,包含数十亿个翻译实例,覆盖多种欧洲官方语言。这使得该数据集非常适合用于机器翻译和自然语言处理等领域的模型训练和评估。此外,该数据集还提供了详细的元数据信息,包括每个子集的大小、下载大小、磁盘使用量等,方便用户选择合适的子集进行使用。
使用方法
使用ParaCrawl数据集的方法相对简单。首先,用户需要选择合适的子集,例如enbg、encs等,然后下载相应的数据文件。下载完成后,用户可以使用Python等编程语言进行数据处理和模型训练。例如,用户可以使用TensorFlow或PyTorch等深度学习框架,将数据集加载到模型中,进行翻译任务的训练和评估。此外,ParaCrawl数据集还提供了详细的文档和示例代码,帮助用户更好地理解和使用该数据集。
背景与挑战
背景概述
ParaCrawl 数据集是一个大规模的平行语料库,旨在为官方欧洲语言提供网络规模的并行语料。该数据集的创建始于 2020 年,由一群研究人员和工程师组成,包括 Marta Baño、Pinzhen Chen、Barry Haddow 等。该数据集的核心研究问题是提高机器翻译系统的质量和效率,通过收集和整理网络上的平行文本,为研究人员和开发者提供一个丰富的资源。ParaCrawl 数据集对机器翻译和相关领域的研究产生了重要影响,促进了机器翻译技术的发展和进步。
当前挑战
ParaCrawl 数据集面临的挑战包括:1) 数据集的规模巨大,需要高效的存储和检索方法;2) 平行文本的质量参差不齐,需要进行筛选和清洗;3) 数据集的多样性有限,可能无法涵盖所有语言和领域。此外,构建数据集的过程中也面临一些挑战,例如:1) 如何高效地爬取网络上的平行文本;2) 如何处理不同语言之间的差异;3) 如何确保数据集的质量和可靠性。
常用场景
经典使用场景
在自然语言处理领域,机器翻译是一项基础而重要的任务,旨在实现跨语言的信息交流。ParaCrawl数据集作为大规模平行语料库,为机器翻译研究提供了丰富的资源。它包含了从网络上收集的多种欧洲官方语言的并行文本,如英语与保加利亚语、捷克语、丹麦语等。这些文本对翻译模型的训练至关重要,能够帮助模型学习不同语言之间的对应关系,提高翻译的准确性和流畅性。
衍生相关工作
ParaCrawl数据集的发布,衍生了一系列相关的研究工作。研究人员利用该数据集进行了句子对齐、翻译模型训练、跨语言信息检索等方面的研究,取得了丰硕的成果。例如,一些研究利用ParaCrawl数据集训练了基于深度学习的翻译模型,实现了高准确率的翻译效果;另一些研究则基于该数据集构建了跨语言搜索引擎,为用户提供便捷的多语言信息检索服务。这些研究成果不仅推动了机器翻译技术的发展,也为跨语言信息处理领域带来了新的突破。
数据集最近研究
最新研究方向
ParaCrawl数据集作为大规模并行语料库,对机器翻译领域的研究具有重要意义。最新的研究方向主要集中在如何利用该数据集提升多语言翻译模型的性能,特别是在低资源语言翻译方面的应用。研究者们正在探索通过改进数据清洗、句对齐和翻译质量评估等手段,来提高翻译模型的准确性和流畅性。此外,如何处理数据集中可能存在的偏见和噪音,以及如何更好地利用这一数据集促进跨语言信息检索和文本摘要等任务的研究,也是当前的热点问题。
以上内容由遇见数据集搜集并总结生成



