five

Helsinki-NLP/bible_para

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/bible_para
下载链接
链接失效反馈
官方服务:
资源简介:
BiblePara数据集是一个多语言的圣经平行语料库,支持多种语言对的翻译任务。数据集包含了多种语言的圣经文本,如德语、英语、法语、西班牙语、芬兰语、挪威语、印地语等。每个语言对的数据实例包括id和翻译文本,数据分割为训练集。数据集的加载方式可以通过指定语言代码对来实现。数据集的详细信息可以在其Homepage上找到。

BiblePara数据集是一个多语言的圣经平行语料库,支持多种语言对的翻译任务。数据集包含了多种语言的圣经文本,如德语、英语、法语、西班牙语、芬兰语、挪威语、印地语等。每个语言对的数据实例包括id和翻译文本,数据分割为训练集。数据集的加载方式可以通过指定语言代码对来实现。数据集的详细信息可以在其Homepage上找到。
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

  • 数据集名称: BiblePara
  • 语言: 多语言,包括但不限于acu, af, agr, ake, am, amu, ar, bg, bsn, cak, ceb, ch, chq, chr, cjp, cni, cop, crp, cs, da, de, dik, dje, djk, dop, ee, el, en, eo, es, et, eu, fi, fr, gbi, gd, gu, gv, he, hi, hr, hu, hy, id, is, it, ja, jak, jiv, kab, kbh, kek, kn, ko, la, lt, lv, mam, mi, ml, mr, my, ne, nhg, nl, no, ojb, pck, pes, pl, plt, pot, ppk, pt, quc, quw, ro, rom, ru, shi, sk, sl, sn, so, sq, sr, ss, sv, syr, te, th, tl, tmh, tr, uk, usp, vi, wal, wo, xh, zh, zu
  • 许可证: cc0-1.0
  • 多语言性: 多语言
  • 大小类别: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 翻译

数据集结构

  • 配置名称: de-en, en-fr, en-es, en-fi, en-no, en-hi
  • 特征:
    • id: 字符串类型
    • translation: 字符串类型,包含多种语言对
  • 分割:
    • train:
      • de-en: 62195个例子,17262178字节,下载大小5440713字节
      • en-fr: 62195个例子,17536445字节,下载大小5470044字节
      • en-es: 62191个例子,17105724字节,下载大小5418998字节
      • en-fi: 62026个例子,17486055字节,下载大小5506407字节
      • en-no: 62107个例子,16681323字节,下载大小5293164字节
      • en-hi: 62073个例子,27849361字节,下载大小6224765字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作