five

ParaCrawl/para_crawl|多语言翻译数据集|机器翻译数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
多语言翻译
机器翻译
下载链接:
https://hf-mirror.com/datasets/ParaCrawl/para_crawl
下载链接
链接失效反馈
资源简介:
ParaCrawl是一个大规模的平行语料库,主要用于机器翻译任务。该数据集包含多种欧洲官方语言的翻译对,如英语与保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语等。数据集的大小在10M到100M之间,数据格式为翻译对,每个翻译对包含两种语言的文本。数据集的创建目的是为了支持机器翻译系统的开发,并且数据集的许可证为CC0-1.0,意味着用户可以自由使用、修改和分发数据。

ParaCrawl是一个大规模的平行语料库,主要用于机器翻译任务。该数据集包含多种欧洲官方语言的翻译对,如英语与保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语等。数据集的大小在10M到100M之间,数据格式为翻译对,每个翻译对包含两种语言的文本。数据集的创建目的是为了支持机器翻译系统的开发,并且数据集的许可证为CC0-1.0,意味着用户可以自由使用、修改和分发数据。
提供机构:
ParaCrawl
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ParaCrawl
  • 语言: 包含多种欧洲语言,具体包括:bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
  • 许可证: cc0-1.0
  • 多语言性: 翻译
  • 数据集大小: 10M<n<100M
  • 源数据: 原始数据
  • 任务类别: 翻译

数据集配置

配置名称: enbg

  • 特征:
    • translation: 包含语言对 en-bg
  • 分割:
    • train:
      • 字节数: 356532771
      • 样本数: 1039885
  • 下载大小: 103743335
  • 数据集大小: 356532771

配置名称: encs

  • 特征:
    • translation: 包含语言对 en-cs
  • 分割:
    • train:
      • 字节数: 638068353
      • 样本数: 2981949
  • 下载大小: 196410022
  • 数据集大小: 638068353

配置名称: enda

  • 特征:
    • translation: 包含语言对 en-da
  • 分割:
    • train:
      • 字节数: 598624306
      • 样本数: 2414895
  • 下载大小: 182804827
  • 数据集大小: 598624306

配置名称: ende

  • 特征:
    • translation: 包含语言对 en-de
  • 分割:
    • train:
      • 字节数: 3997191986
      • 样本数: 16264448
  • 下载大小: 1307754745
  • 数据集大小: 3997191986

配置名称: enel

  • 特征:
    • translation: 包含语言对 en-el
  • 分割:
    • train:
      • 字节数: 688069020
      • 样本数: 1985233
  • 下载大小: 193553374
  • 数据集大小: 688069020

配置名称: enes

  • 特征:
    • translation: 包含语言对 en-es
  • 分割:
    • train:
      • 字节数: 6209466040
      • 样本数: 21987267
  • 下载大小: 1953839527
  • 数据集大小: 6209466040

配置名称: enet

  • 特征:
    • translation: 包含语言对 en-et
  • 分割:
    • train:
      • 字节数: 201408919
      • 样本数: 853422
  • 下载大小: 70158650
  • 数据集大小: 201408919

配置名称: enfi

  • 特征:
    • translation: 包含语言对 en-fi
  • 分割:
    • train:
      • 字节数: 524624150
      • 样本数: 2156069
  • 下载大小: 159209242
  • 数据集大小: 524624150

配置名称: enfr

  • 特征:
    • translation: 包含语言对 en-fr
  • 分割:
    • train:
      • 字节数: 9015440258
      • 样本数: 31374161
  • 下载大小: 2827554088
  • 数据集大小: 9015440258

配置名称: enga

  • 特征:
    • translation: 包含语言对 en-ga
  • 分割:
    • train:
      • 字节数: 104523278
      • 样本数: 357399
  • 下载大小: 29394367
  • 数据集大小: 104523278

配置名称: enhr

  • 特征:
    • translation: 包含语言对 en-hr
  • 分割:
    • train:
      • 字节数: 247646552
      • 样本数: 1002053
  • 下载大小: 84904103
  • 数据集大小: 247646552

配置名称: enhu

  • 特征:
    • translation: 包含语言对 en-hu
  • 分割:
    • train:
      • 字节数: 403168065
      • 样本数: 1901342
  • 下载大小: 119784765
  • 数据集大小: 403168065

配置名称: enit

  • 特征:
    • translation: 包含语言对 en-it
  • 分割:
    • train:
      • 字节数: 3340542050
      • 样本数: 12162239
  • 下载大小: 1066720197
  • 数据集大小: 3340542050

配置名称: enlt

  • 特征:
    • translation: 包含语言对 en-lt
  • 分割:
    • train:
      • 字节数: 197053694
      • 样本数: 844643
  • 下载大小: 66358392
  • 数据集大小: 197053694

配置名称: enlv

  • 特征:
    • translation: 包含语言对 en-lv
  • 分割:
    • train:
      • 字节数: 142409870
      • 样本数: 553060
  • 下载大小: 47368967
  • 数据集大小: 142409870

配置名称: enmt

  • 特征:
    • translation: 包含语言对 en-mt
  • 分割:
    • train:
      • 字节数: 52786023
      • 样本数: 195502
  • 下载大小: 19028352
  • 数据集大小: 52786023

配置名称: ennl

  • 特征:
    • translation: 包含语言对 en-nl
  • 分割:
    • train:
      • 字节数: 1384042007
      • 样本数: 5659268
  • 下载大小: 420090979
  • 数据集大小: 1384042007

配置名称: enpl

  • 特征:
    • translation: 包含语言对 en-pl
  • 分割:
    • train:
      • 字节数: 854786500
      • 样本数: 3503276
  • 下载大小: 270427885
  • 数据集大小: 854786500

配置名称: enpt

  • 特征:
    • translation: 包含语言对 en-pt
  • 分割:
    • train:
      • 字节数: 2031891156
      • 样本数: 8141940
  • 下载大小: 638184462
  • 数据集大小: 2031891156

配置名称: enro

  • 特征:
    • translation: 包含语言对 en-ro
  • 分割:
    • train:
      • 字节数: 518359240
      • 样本数: 1952043
  • 下载大小: 160684751
  • 数据集大小: 518359240

配置名称: ensk

  • 特征:
    • translation: 包含语言对 en-sk
  • 分割:
    • train:
      • 字节数: 337704729
      • 样本数: 1591831
  • 下载大小: 101307152
  • 数据集大小: 337704729

配置名称: ensl

  • 特征:
    • translation: 包含语言对 en-sl
  • 分割:
    • train:
      • 字节数: 182399034
      • 样本数: 660161
  • 下载大小: 65037465
  • 数据集大小: 182399034

配置名称: ensv

  • 特征:
    • translation: 包含语言对 en-sv
  • 分割:
    • train:
      • 字节数: 875576366
      • 样本数: 3476729
  • 下载大小: 275528370
  • 数据集大小: 875576366
AI搜集汇总
数据集介绍
main_image_url
构建方式
ParaCrawl数据集的构建方式是通过从互联网上爬取大量平行语料,涵盖多种欧洲官方语言。该数据集由多个子集组成,每个子集对应一对特定语言的翻译对。这些平行语料经过严格的清洗和预处理,以确保其质量和适用性。数据集的每个子集都包含训练集,其中包含成对的翻译实例,以及相应的语言代码。例如,enbg子集包含英语和保加利亚语的翻译对。
特点
ParaCrawl数据集的特点在于其规模庞大,包含数十亿个翻译实例,覆盖多种欧洲官方语言。这使得该数据集非常适合用于机器翻译和自然语言处理等领域的模型训练和评估。此外,该数据集还提供了详细的元数据信息,包括每个子集的大小、下载大小、磁盘使用量等,方便用户选择合适的子集进行使用。
使用方法
使用ParaCrawl数据集的方法相对简单。首先,用户需要选择合适的子集,例如enbg、encs等,然后下载相应的数据文件。下载完成后,用户可以使用Python等编程语言进行数据处理和模型训练。例如,用户可以使用TensorFlow或PyTorch等深度学习框架,将数据集加载到模型中,进行翻译任务的训练和评估。此外,ParaCrawl数据集还提供了详细的文档和示例代码,帮助用户更好地理解和使用该数据集。
背景与挑战
背景概述
ParaCrawl 数据集是一个大规模的平行语料库,旨在为官方欧洲语言提供网络规模的并行语料。该数据集的创建始于 2020 年,由一群研究人员和工程师组成,包括 Marta Baño、Pinzhen Chen、Barry Haddow 等。该数据集的核心研究问题是提高机器翻译系统的质量和效率,通过收集和整理网络上的平行文本,为研究人员和开发者提供一个丰富的资源。ParaCrawl 数据集对机器翻译和相关领域的研究产生了重要影响,促进了机器翻译技术的发展和进步。
当前挑战
ParaCrawl 数据集面临的挑战包括:1) 数据集的规模巨大,需要高效的存储和检索方法;2) 平行文本的质量参差不齐,需要进行筛选和清洗;3) 数据集的多样性有限,可能无法涵盖所有语言和领域。此外,构建数据集的过程中也面临一些挑战,例如:1) 如何高效地爬取网络上的平行文本;2) 如何处理不同语言之间的差异;3) 如何确保数据集的质量和可靠性。
常用场景
经典使用场景
在自然语言处理领域,机器翻译是一项基础而重要的任务,旨在实现跨语言的信息交流。ParaCrawl数据集作为大规模平行语料库,为机器翻译研究提供了丰富的资源。它包含了从网络上收集的多种欧洲官方语言的并行文本,如英语与保加利亚语、捷克语、丹麦语等。这些文本对翻译模型的训练至关重要,能够帮助模型学习不同语言之间的对应关系,提高翻译的准确性和流畅性。
衍生相关工作
ParaCrawl数据集的发布,衍生了一系列相关的研究工作。研究人员利用该数据集进行了句子对齐、翻译模型训练、跨语言信息检索等方面的研究,取得了丰硕的成果。例如,一些研究利用ParaCrawl数据集训练了基于深度学习的翻译模型,实现了高准确率的翻译效果;另一些研究则基于该数据集构建了跨语言搜索引擎,为用户提供便捷的多语言信息检索服务。这些研究成果不仅推动了机器翻译技术的发展,也为跨语言信息处理领域带来了新的突破。
数据集最近研究
最新研究方向
ParaCrawl数据集作为大规模并行语料库,对机器翻译领域的研究具有重要意义。最新的研究方向主要集中在如何利用该数据集提升多语言翻译模型的性能,特别是在低资源语言翻译方面的应用。研究者们正在探索通过改进数据清洗、句对齐和翻译质量评估等手段,来提高翻译模型的准确性和流畅性。此外,如何处理数据集中可能存在的偏见和噪音,以及如何更好地利用这一数据集促进跨语言信息检索和文本摘要等任务的研究,也是当前的热点问题。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录