five

Helsinki-NLP/opus_paracrawl

收藏
Hugging Face2024-02-22 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/opus_paracrawl
下载链接
链接失效反馈
官方服务:
资源简介:
OpusParaCrawl数据集是一个多语言的平行语料库,包含42种语言和43个双语对。数据集总共有59,996个文件,包含56.11G的token和3.13G的句子片段。数据集主要用于翻译任务,用户可以通过指定语言对来加载特定的语料库。数据集的许可证为Creative Commons CC0(无权利保留)。
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

名称: OpusParaCrawl

语言: 包含42种语言,如bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, is, it, km, ko, lt, lv, mt, my, nb, ne, nl, nn, pl, pt, ro, ru, si, sk, sl, so, sv, sw, tl, uk, zh等。

许可证: CC0-1.0

多语言性: 多语言

大小: 数据集大小分为三个类别:100K<n<1M, 10K<n<100K, 1M<n<10M

源数据: 原始数据

任务类别: 翻译

数据集结构

数据实例:

{ id: 0, translation: { "el": "Συνεχίστε ευθεία 300 μέτρα μέχρι να καταλήξουμε σε μια σωστή οδός (ul. Gagarina)? Περπατήστε περίπου 300 μέτρα μέχρι να φτάσετε το πρώτο ορθή οδός (ul Khotsa Namsaraeva)?", "en": "Go straight 300 meters until you come to a proper street (ul. Gagarina); Walk approximately 300 meters until you reach the first proper street (ul Khotsa Namsaraeva);" } }

数据字段:

  • id (str): 平行句子对在两种语言中的唯一标识符。
  • translation (dict): 两种语言的平行句子。

数据分割:

  • 仅包含一个train分割。

数据集配置

配置名称:

  • de-pl
  • el-en
  • en-ha
  • en-ig
  • en-km
  • en-so
  • en-sw
  • en-tl
  • es-gl
  • fr-nl

配置详情:

  • de-pl:
    • 训练集大小: 298635927字节
    • 训练集示例数: 916643
    • 下载大小: 183957290字节
    • 数据集大小: 298635927字节
  • el-en:
    • 训练集大小: 6760349369字节
    • 训练集示例数: 21402471
    • 下载大小: 4108379167字节
    • 数据集大小: 6760349369字节
  • en-ha:
    • 训练集大小: 4618460字节
    • 训练集示例数: 19694
    • 下载大小: 1757433字节
    • 数据集大小: 4618460字节
  • en-ig:
    • 训练集大小: 6709030字节
    • 训练集示例数: 28829
    • 下载大小: 2691716字节
    • 数据集大小: 6709030字节
  • en-km:
    • 训练集大小: 31964409字节
    • 训练集示例数: 65115
    • 下载大小: 16582595字节
    • 数据集大小: 31964409字节
  • en-so:
    • 训练集大小: 5790979字节
    • 训练集示例数: 14880
    • 下载大小: 3718608字节
    • 数据集大小: 5790979字节
  • en-sw:
    • 训练集大小: 44264274字节
    • 训练集示例数: 132520
    • 下载大小: 30553316字节
    • 数据集大小: 44264274字节
  • en-tl:
    • 训练集大小: 82502498字节
    • 训练集示例数: 248689
    • 下载大小: 54686324字节
    • 数据集大小: 82502498字节
  • es-gl:
    • 训练集大小: 582658645字节
    • 训练集示例数: 1879689
    • 下载大小: 406732310字节
    • 数据集大小: 582658645字节
  • fr-nl:
    • 训练集大小: 862299992字节
    • 训练集示例数: 2687673
    • 下载大小: 550812954字节
    • 数据集大小: 862299992字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作