Helsinki-NLP/qed_amara
收藏数据集概述
名称: QedAmara
多语言性: 多语言
语言: 数据集包含多种语言,具体包括但不限于:aa, ab, ae, aeb, af, ak, am, an, ar, arq, arz, as, ase, ast, av, ay, az, ba, be, ber, bg, bh, bi, bm, bn, bnt, bo, br, bs, bug, ca, ce, ceb, ch, cho, cku, cnh, co, cr, cs, cu, cv, cy, da, de, dv, dz, ee, efi, el, en, eo, es, et, eu, fa, ff, fi, fil, fj, fo, fr, ga, gd, gl, gn, gu, ha, hai, haw, haz, hch, he, hi, ho, hr, ht, hu, hup, hus, hy, hz, ia, id, ie, ig, ik, inh, io, iro, is, it, iu, ja, jv, ka, kar, ki, kj, kk, kl, km, kn, ko, kr, ksh, ku, kv, kw, ky, la, lb, lg, li, lkt, lld, ln, lo, lt, ltg, lu, luo, luy, lv, mad, mfe, mg, mi, mk, ml, mn, mni, moh, mos, mr, ms, mt, mus, my, nb, nci, nd, ne, nl, nn, nso, nv, ny, oc, om, or, pa, pam, pap, pi, pl, pnb, prs, ps, pt, qu, rm, rn, ro, ru, rup, rw, sa, sc, scn, sco, sd, sg, sgn, sh, si, sk, sl, sm, sn, so, sq, sr, st, sv, sw, szl, ta, te, tet, tg, th, ti, tk, tl, tlh, to, tr, ts, tt, tw, ug, uk, umb, ur, uz, ve, vi, vls, vo, wa, wo, xh, yaq, yi, yo, za, zam, zh, zu。
许可: 未知
大小类别: 100K<n<1M
源数据集: 原始
任务类别: 翻译
数据集结构
数据集包含多个配置,每个配置对应不同的语言对和数据分割。以下是部分配置的详细信息:
-
配置名称: ar-ko
- 特征:
- id: 字符串类型
- translation: 包含语言对 ar 和 ko
- 分割:
- 训练集: 592589个例子,数据大小79605277字节,下载大小23410393字节
- 特征:
-
配置名称: de-fr
- 特征:
- id: 字符串类型
- translation: 包含语言对 de 和 fr
- 分割:
- 训练集: 407224个例子,数据大小75861416字节,下载大小26579871字节
- 特征:
-
配置名称: es-it
- 特征:
- id: 字符串类型
- translation: 包含语言对 es 和 it
- 分割:
- 训练集: 447369个例子,数据大小80650321字节,下载大小28344317字节
- 特征:
-
配置名称: en-ja
- 特征:
- id: 字符串类型
- translation: 包含语言对 en 和 ja
- 分割:
- 训练集: 497531个例子,数据大小86731218字节,下载大小29836171字节
- 特征:
-
配置名称: he-nl
- 特征:
- id: 字符串类型
- translation: 包含语言对 he 和 nl
- 分割:
- 训练集: 273165个例子,数据大小51448732字节,下载大小16642865字节
- 特征:




