Helsinki-NLP/qed_amara

Name: Helsinki-NLP/qed_amara
Creator: Helsinki-NLP
Published: 2024-01-18 11:14:04
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Helsinki-NLP/qed_amara

下载链接

链接失效反馈

官方服务：

资源简介：

QedAmara数据集是一个多语言翻译数据集，支持多种语言的翻译任务。数据集中包含了从多种语言家族中选取的广泛语言。数据集的结构包括数据实例和字段，但关于数据分割、数据收集理由、源数据、注释过程以及使用数据时的其他考虑因素的详细信息尚未提供。数据集的主页、存储库和相关论文已提供，但具体的许可信息、引用信息和数据集策展人信息尚未明确。

提供机构：

Helsinki-NLP

原始信息汇总

数据集概述

名称： QedAmara

多语言性： 多语言

语言： 数据集包含多种语言，具体包括但不限于：aa, ab, ae, aeb, af, ak, am, an, ar, arq, arz, as, ase, ast, av, ay, az, ba, be, ber, bg, bh, bi, bm, bn, bnt, bo, br, bs, bug, ca, ce, ceb, ch, cho, cku, cnh, co, cr, cs, cu, cv, cy, da, de, dv, dz, ee, efi, el, en, eo, es, et, eu, fa, ff, fi, fil, fj, fo, fr, ga, gd, gl, gn, gu, ha, hai, haw, haz, hch, he, hi, ho, hr, ht, hu, hup, hus, hy, hz, ia, id, ie, ig, ik, inh, io, iro, is, it, iu, ja, jv, ka, kar, ki, kj, kk, kl, km, kn, ko, kr, ksh, ku, kv, kw, ky, la, lb, lg, li, lkt, lld, ln, lo, lt, ltg, lu, luo, luy, lv, mad, mfe, mg, mi, mk, ml, mn, mni, moh, mos, mr, ms, mt, mus, my, nb, nci, nd, ne, nl, nn, nso, nv, ny, oc, om, or, pa, pam, pap, pi, pl, pnb, prs, ps, pt, qu, rm, rn, ro, ru, rup, rw, sa, sc, scn, sco, sd, sg, sgn, sh, si, sk, sl, sm, sn, so, sq, sr, st, sv, sw, szl, ta, te, tet, tg, th, ti, tk, tl, tlh, to, tr, ts, tt, tw, ug, uk, umb, ur, uz, ve, vi, vls, vo, wa, wo, xh, yaq, yi, yo, za, zam, zh, zu。

许可： 未知

大小类别： 100K<n<1M

源数据集： 原始

任务类别： 翻译

数据集结构

数据集包含多个配置，每个配置对应不同的语言对和数据分割。以下是部分配置的详细信息：

配置名称： ar-ko
- 特征：
  - id: 字符串类型
  - translation: 包含语言对 ar 和 ko
- 分割：
  - 训练集: 592589个例子，数据大小79605277字节，下载大小23410393字节
配置名称： de-fr
- 特征：
  - id: 字符串类型
  - translation: 包含语言对 de 和 fr
- 分割：
  - 训练集: 407224个例子，数据大小75861416字节，下载大小26579871字节
配置名称： es-it
- 特征：
  - id: 字符串类型
  - translation: 包含语言对 es 和 it
- 分割：
  - 训练集: 447369个例子，数据大小80650321字节，下载大小28344317字节
配置名称： en-ja
- 特征：
  - id: 字符串类型
  - translation: 包含语言对 en 和 ja
- 分割：
  - 训练集: 497531个例子，数据大小86731218字节，下载大小29836171字节
配置名称： he-nl
- 特征：
  - id: 字符串类型
  - translation: 包含语言对 he 和 nl
- 分割：
  - 训练集: 273165个例子，数据大小51448732字节，下载大小16642865字节

搜集汇总

数据集介绍

背景与挑战

背景概述

QedAmara数据集是一个多语言翻译数据集，由Helsinki-NLP研究组创建，支持超过220种语言，数据量在10万到100万之间。用户可以通过指定任意语言对（如cs和nb）来加载数据，适用于机器翻译任务，但许可证信息未知。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集