Helsinki-NLP/bible_para
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/bible_para
下载链接
链接失效反馈官方服务:
资源简介:
BiblePara数据集是一个多语言的圣经平行语料库,支持多种语言对的翻译任务。数据集包含了多种语言的圣经文本,如德语、英语、法语、西班牙语、芬兰语、挪威语、印地语等。每个语言对的数据实例包括id和翻译文本,数据分割为训练集。数据集的加载方式可以通过指定语言代码对来实现。数据集的详细信息可以在其Homepage上找到。
BiblePara数据集是一个多语言的圣经平行语料库,支持多种语言对的翻译任务。数据集包含了多种语言的圣经文本,如德语、英语、法语、西班牙语、芬兰语、挪威语、印地语等。每个语言对的数据实例包括id和翻译文本,数据分割为训练集。数据集的加载方式可以通过指定语言代码对来实现。数据集的详细信息可以在其Homepage上找到。
提供机构:
Helsinki-NLP
原始信息汇总
数据集概述
- 数据集名称: BiblePara
- 语言: 多语言,包括但不限于acu, af, agr, ake, am, amu, ar, bg, bsn, cak, ceb, ch, chq, chr, cjp, cni, cop, crp, cs, da, de, dik, dje, djk, dop, ee, el, en, eo, es, et, eu, fi, fr, gbi, gd, gu, gv, he, hi, hr, hu, hy, id, is, it, ja, jak, jiv, kab, kbh, kek, kn, ko, la, lt, lv, mam, mi, ml, mr, my, ne, nhg, nl, no, ojb, pck, pes, pl, plt, pot, ppk, pt, quc, quw, ro, rom, ru, shi, sk, sl, sn, so, sq, sr, ss, sv, syr, te, th, tl, tmh, tr, uk, usp, vi, wal, wo, xh, zh, zu
- 许可证: cc0-1.0
- 多语言性: 多语言
- 大小类别: 10K<n<100K
- 源数据集: 原始
- 任务类别: 翻译
数据集结构
- 配置名称: de-en, en-fr, en-es, en-fi, en-no, en-hi
- 特征:
- id: 字符串类型
- translation: 字符串类型,包含多种语言对
- 分割:
- train:
- de-en: 62195个例子,17262178字节,下载大小5440713字节
- en-fr: 62195个例子,17536445字节,下载大小5470044字节
- en-es: 62191个例子,17105724字节,下载大小5418998字节
- en-fi: 62026个例子,17486055字节,下载大小5506407字节
- en-no: 62107个例子,16681323字节,下载大小5293164字节
- en-hi: 62073个例子,27849361字节,下载大小6224765字节
- train:



