five

Helsinki-NLP/qed_amara

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/qed_amara
下载链接
链接失效反馈
官方服务:
资源简介:
QedAmara数据集是一个多语言翻译数据集,支持多种语言的翻译任务。数据集中包含了从多种语言家族中选取的广泛语言。数据集的结构包括数据实例和字段,但关于数据分割、数据收集理由、源数据、注释过程以及使用数据时的其他考虑因素的详细信息尚未提供。数据集的主页、存储库和相关论文已提供,但具体的许可信息、引用信息和数据集策展人信息尚未明确。

QedAmara数据集是一个多语言翻译数据集,支持多种语言的翻译任务。数据集中包含了从多种语言家族中选取的广泛语言。数据集的结构包括数据实例和字段,但关于数据分割、数据收集理由、源数据、注释过程以及使用数据时的其他考虑因素的详细信息尚未提供。数据集的主页、存储库和相关论文已提供,但具体的许可信息、引用信息和数据集策展人信息尚未明确。
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

名称: QedAmara

多语言性: 多语言

语言: 数据集包含多种语言,具体包括但不限于:aa, ab, ae, aeb, af, ak, am, an, ar, arq, arz, as, ase, ast, av, ay, az, ba, be, ber, bg, bh, bi, bm, bn, bnt, bo, br, bs, bug, ca, ce, ceb, ch, cho, cku, cnh, co, cr, cs, cu, cv, cy, da, de, dv, dz, ee, efi, el, en, eo, es, et, eu, fa, ff, fi, fil, fj, fo, fr, ga, gd, gl, gn, gu, ha, hai, haw, haz, hch, he, hi, ho, hr, ht, hu, hup, hus, hy, hz, ia, id, ie, ig, ik, inh, io, iro, is, it, iu, ja, jv, ka, kar, ki, kj, kk, kl, km, kn, ko, kr, ksh, ku, kv, kw, ky, la, lb, lg, li, lkt, lld, ln, lo, lt, ltg, lu, luo, luy, lv, mad, mfe, mg, mi, mk, ml, mn, mni, moh, mos, mr, ms, mt, mus, my, nb, nci, nd, ne, nl, nn, nso, nv, ny, oc, om, or, pa, pam, pap, pi, pl, pnb, prs, ps, pt, qu, rm, rn, ro, ru, rup, rw, sa, sc, scn, sco, sd, sg, sgn, sh, si, sk, sl, sm, sn, so, sq, sr, st, sv, sw, szl, ta, te, tet, tg, th, ti, tk, tl, tlh, to, tr, ts, tt, tw, ug, uk, umb, ur, uz, ve, vi, vls, vo, wa, wo, xh, yaq, yi, yo, za, zam, zh, zu。

许可: 未知

大小类别: 100K<n<1M

源数据集: 原始

任务类别: 翻译

数据集结构

数据集包含多个配置,每个配置对应不同的语言对和数据分割。以下是部分配置的详细信息:

  • 配置名称: ar-ko

    • 特征:
      • id: 字符串类型
      • translation: 包含语言对 ar 和 ko
    • 分割:
      • 训练集: 592589个例子,数据大小79605277字节,下载大小23410393字节
  • 配置名称: de-fr

    • 特征:
      • id: 字符串类型
      • translation: 包含语言对 de 和 fr
    • 分割:
      • 训练集: 407224个例子,数据大小75861416字节,下载大小26579871字节
  • 配置名称: es-it

    • 特征:
      • id: 字符串类型
      • translation: 包含语言对 es 和 it
    • 分割:
      • 训练集: 447369个例子,数据大小80650321字节,下载大小28344317字节
  • 配置名称: en-ja

    • 特征:
      • id: 字符串类型
      • translation: 包含语言对 en 和 ja
    • 分割:
      • 训练集: 497531个例子,数据大小86731218字节,下载大小29836171字节
  • 配置名称: he-nl

    • 特征:
      • id: 字符串类型
      • translation: 包含语言对 he 和 nl
    • 分割:
      • 训练集: 273165个例子,数据大小51448732字节,下载大小16642865字节
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
QedAmara数据集是一个多语言翻译数据集,由Helsinki-NLP研究组创建,支持超过220种语言,数据量在10万到100万之间。用户可以通过指定任意语言对(如cs和nb)来加载数据,适用于机器翻译任务,但许可证信息未知。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作