Helsinki-NLP/opus_paracrawl
收藏Hugging Face2024-02-22 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/opus_paracrawl
下载链接
链接失效反馈官方服务:
资源简介:
OpusParaCrawl数据集是一个多语言的平行语料库,包含42种语言和43个双语对。数据集总共有59,996个文件,包含56.11G的token和3.13G的句子片段。数据集主要用于翻译任务,用户可以通过指定语言对来加载特定的语料库。数据集的许可证为Creative Commons CC0(无权利保留)。
提供机构:
Helsinki-NLP
原始信息汇总
数据集概述
名称: OpusParaCrawl
语言: 包含42种语言,如bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, is, it, km, ko, lt, lv, mt, my, nb, ne, nl, nn, pl, pt, ro, ru, si, sk, sl, so, sv, sw, tl, uk, zh等。
许可证: CC0-1.0
多语言性: 多语言
大小: 数据集大小分为三个类别:100K<n<1M, 10K<n<100K, 1M<n<10M
源数据: 原始数据
任务类别: 翻译
数据集结构
数据实例:
{ id: 0, translation: { "el": "Συνεχίστε ευθεία 300 μέτρα μέχρι να καταλήξουμε σε μια σωστή οδός (ul. Gagarina)? Περπατήστε περίπου 300 μέτρα μέχρι να φτάσετε το πρώτο ορθή οδός (ul Khotsa Namsaraeva)?", "en": "Go straight 300 meters until you come to a proper street (ul. Gagarina); Walk approximately 300 meters until you reach the first proper street (ul Khotsa Namsaraeva);" } }
数据字段:
id(str): 平行句子对在两种语言中的唯一标识符。translation(dict): 两种语言的平行句子。
数据分割:
- 仅包含一个
train分割。
数据集配置
配置名称:
- de-pl
- el-en
- en-ha
- en-ig
- en-km
- en-so
- en-sw
- en-tl
- es-gl
- fr-nl
配置详情:
- de-pl:
- 训练集大小: 298635927字节
- 训练集示例数: 916643
- 下载大小: 183957290字节
- 数据集大小: 298635927字节
- el-en:
- 训练集大小: 6760349369字节
- 训练集示例数: 21402471
- 下载大小: 4108379167字节
- 数据集大小: 6760349369字节
- en-ha:
- 训练集大小: 4618460字节
- 训练集示例数: 19694
- 下载大小: 1757433字节
- 数据集大小: 4618460字节
- en-ig:
- 训练集大小: 6709030字节
- 训练集示例数: 28829
- 下载大小: 2691716字节
- 数据集大小: 6709030字节
- en-km:
- 训练集大小: 31964409字节
- 训练集示例数: 65115
- 下载大小: 16582595字节
- 数据集大小: 31964409字节
- en-so:
- 训练集大小: 5790979字节
- 训练集示例数: 14880
- 下载大小: 3718608字节
- 数据集大小: 5790979字节
- en-sw:
- 训练集大小: 44264274字节
- 训练集示例数: 132520
- 下载大小: 30553316字节
- 数据集大小: 44264274字节
- en-tl:
- 训练集大小: 82502498字节
- 训练集示例数: 248689
- 下载大小: 54686324字节
- 数据集大小: 82502498字节
- es-gl:
- 训练集大小: 582658645字节
- 训练集示例数: 1879689
- 下载大小: 406732310字节
- 数据集大小: 582658645字节
- fr-nl:
- 训练集大小: 862299992字节
- 训练集示例数: 2687673
- 下载大小: 550812954字节
- 数据集大小: 862299992字节



